Как избавиться от дублей страниц в Bitrix
Наличие дублирующих страниц – частая проблема, с которой приходится сталкиваться оптимизаторам. Наличие таких страниц на сайте ведёт к «замусориванию» индекса, трате краулингового бюджета на ненужные страницы, появлению на выдаче дублей вместо продвигаемых страниц. Всё это в конечном итоге ведёт к ухудшению ранжирования сайта.
Среди разных CMS в моём личном рейтинге 1С-Битрикс не занимает первого места по количеству типичных проблем с дублями. Например, от Joomla можно ожидать куда большего числа проблем с разными типами дублей. Но и 1С-Битрикс не лишена своих особенностей. Наиболее часто сложности возникают с фильтром, товарами и страницами пагинации.
Но сперва расскажу про те случаи возникновения дублей, которые характерны для всех типов сайтов и CMS.
Чтобы проверить их наличие, следует проверить доступность главной страницы по следующим адресам:
https://www.oridis.ru/index.php
https://www.oridis.ru/home.php
https://www.oridis.ru/index.html
https://www.oridis.ru/home.html
https://www.oridis.ru/index.htm
https://www.oridis.ru/home.htm
(наиболее распространённые варианты)
Корректным ответом сервера при открытии подобных страниц будет 404 или 301.
Если же страница возвращает 200 ОК, это говорит нам о наличии дубля.
Быстро и удобно проверить главную страницу на наличие дублей можно при помощи данного сервиса:
https://apollon.guru/duplicates/
Перед началом продвижения обязательно следует определиться с тем, какой адрес сайта считать главным зеркалом – с www или без него.
Оба варианта имеют свои плюсы и минусы. Вариант без www короче. При длинном доменном имени добавление ещё четырёх символов не всегда выглядит красиво. А к плюсам варианта с www можно отнести, что при написании адреса сайта с www в некоторых редакторах адрес автоматически становится гиперссылкой.
Форма отправки письма Outlook
На нашем сайте основным зеркалом выбрана версия www.oridis.ru
Теперь для проверки корректности настройки следует проверить, что страницы без префикса www перенаправляют на страницы с www в адресе.
Пример:
https://oridis.ru/seo/
В данном случае страница перенаправляет на www-версию. Проблем нет.
Код ответа страницы можно проверить при помощи инспектора браузера либо при помощи онлайн-сервиса, например:
https://bertal.ru/index.php?a7054246/https://oridis.ru/seo/#h
О том, как правильно настроить редирект, можно узнать в материале https://www.oridis.ru/articles/301-redirect.html
Прекрасный способ отыскать дубли и другие «мусорные» страницы – это посмотреть проиндексированные страницы в поисковых системах:
https://yandex.ru/search/?text=host%3Awww.oridis.ru&lr=213&clid=2186620
Часто там можно обнаружить совершенно удивительные страницы, о которых даже сложно было предположить.
В индекс попадают и страницы с метками (например, UTM). Чтобы исключить такие страницы можно использовать директиву Clean-param:
https://yandex.ru/support/webmaster/robot-workings/clean-param.html
Именно таким способом пользуется OZON.RU:
https://www.ozon.ru/robots.txt
Другой альтернативный метод борьбы с дублями GET-параметров – это закрывать их в robots.txt через директиву Disallow. Google не воспринимает директиву Clean-param, зато директиву Disallow прекрасно понимает как Google, так и Яндекс.
Крупный интернет-магазин Эльдорадо (работающий, кстати, на Битрикс), использует Disallow для закрытия ненужных GET-параметров:
https://www.eldorado.ru/robots.txt
Если вы хотите закрыть от индексации все страницы с GET-параметрами, то достаточно прописать строчку:
Disallow: /*?
Далее перейдём к более специфичным особенностям 1С-Битрикс.
В Битрикс подобные страницы, как правильно имеют вид:
https://site.ru/catalog/inventar/?PAGEN_1=7
Что же с ними делать? Как избавиться от подобных страниц в индексе? И нужно ли это делать в принципе?
Читаем рекомендации поисковых систем.
Яндекс:
Если в какой-либо категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Если на такие страницы нет трафика из поисковых систем и их контент во многом идентичен, то советую настраивать атрибут rel=»canonical» тега <link> на подобных страницах и делать страницы второй, третьей и дальнейшей нумерации неканоническими, а в качестве канонического (главного) адреса указывать первую страницу каталога, только она будет участвовать в результатах поиска.
https://yandex.ru/blog/platon/2878
Т.е. Яндекс рекомендует ставить нам canonical на пагинаторные страницы, ведущие на основную категорию.
Сами рекомендации датированы 2015-м годом. Обращался в техподдержку Яндекса, чтобы узнать не потеряли ли актуальность данные рекомендации. Техподдержка актуальность рекомендаций подтвердила.
Google ранее советовал настраивать link rel next/prev для пагинаторных страниц. Но на данный момент от данной рекомендации он отказался:
Spring cleaning!
— Google Search Central (@googlesearchc) March 21, 2019
As we evaluated our indexing signals, we decided to retire rel=prev/next.
Studies show that users love single-page content, aim for that when possible, but multi-part is also fine for Google Search. Know and do what's best for *your* users! #springiscoming pic.twitter.com/hCODPoKgKp
Google также сообщает, что использование canonical на пагинаторных страницах со ссылкой на основную категорию (первую страницу) является ошибкой:
https://webmasters.googleblog.com/2013/04/5-common-mistakes-with-relcanonical.html
Таким образом получается, что рекомендации Яндекс и Google противоречат друг другу.
Что делать в этой ситуации – каждый должен решить для себя.
Например, я обычно проставляю canonical на основную категорию, следуя рекомендациям Яндекса. Причина такого решения заключается в том, что продвижение мы в основном ведём под Рунет, где доля Яндекса пока ещё больше Google. Если же вы продвигаетесь в иностранном сегменте интернета, где царствует Google, старайтесь ориентироваться на актуальные рекомендации этой поисковой системы.
При работе с интернет-магазином на 1С-Битрикс можно часто столкнуться со страницами с /filter/clear/apply/ в адресе.
Один из вариантов решения – прописать каноникал на основную категорию.
Т.е. страница:
https://site.ru/catalog/aksessuary/podsumki-i-patrontashi/filter/clear/apply/
должна содержать canonical, ведущий на:
https://site.ru/catalog/aksessuary/podsumki-i-patrontashi/
Решение можно считать правильным (по крайней мере, с точки зрения Яндекса). Однако такой подход требует определённых трудозатрат программиста на написание нужного функционала.
К тому же каноникал не является панацеей и строгой рекомендацией для поисковых систем (в отличии, например, от файла robots.txt). Канонические страницы вполне могут попадать в индекс, если поисковая система сочтёт это нужным:
https://webmaster.yandex.ru/blog/nekanonicheskie-stranitsy-v-poiske
Наименее трудозатратный и наиболее простой способ быстро решить данную проблему – это прописать соответствующие директивы в файле robots.txt.
Например, можно полностью закрыть все страницы с «filter»:
Disallow: /*filter
Часто встречаю подобный вариант написания директив:
Disallow: /*filter*
Однако, нет никакой необходимости ставить звёздочку на конце строчки. Дело в том, что по умолчанию в конце записи, если не указан спецсимвол «$», всегда подразумевается звёздочка.
Из коробки 1C-Битрикс не содержит файла robots.txt. Чтобы его создать необходимо перейти в административную панель и выбрать:
Маркетинг > Поисковая оптимизация > Настройка robots.txt
Далее можно выбрать «Стартовый набор» и нажать кнопку «Сохранить».
В результате создастся файл robots.txt. Его содержимое может иметь следующий вид:
User-Agent: *
Disallow: */index.php
Disallow: /bitrix/
Disallow: /*show_include_exec_time=
Disallow: /*show_page_exec_time=
Disallow: /*show_sql_stat=
Disallow: /*bitrix_include_areas=
Disallow: /*clear_cache=
Disallow: /*clear_cache_session=
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*ORDER_BY
Disallow: /*PAGEN
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*print_course=
Disallow: /*?action=
Disallow: /*&action=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*backurl=
Disallow: /*back_url=
Disallow: /*BACKURL=
Disallow: /*BACK_URL=
Disallow: /*back_url_admin=
Disallow: /*?utm_source=
Disallow: /*?bxajaxid=
Disallow: /*&bxajaxid=
Disallow: /*?view_result=
Disallow: /*&view_result=
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/panel/
Host: www.1097lab.bitrixlabs.ru
Закрыты от индексации основные технические разделы и страницы. Отрыты – пути к CSS и JS-файлам. Если этого не сделать, поисковые системы могут воспринимать сайт некорректно. Например, сервис Google Mobile-Friendly Tools не сможет увидеть корректный дизайн и сайт может не пройти проверку на мобильность.
Также стоит отметить, что строчка Host лишняя и её можно смело удалять (особенно, если у вас настроены редиректы). Яндекс отменил данную директиву, но Битрикс продолжает по-прежнему генерировать файл robots.txt вместе с ней.
Распространённая трудность не только с сайтами на Битрикс, но и с любыми другими интернет-магазинами.
Поэтому расскажу, как решить этот вопрос в общем случае. Существует как минимум два подхода для устранения таких дублей.
Сперва приведу примеры. Итак, у нас есть один и тот же товар, который относится к нескольким категориям:
http://site.ru/catalog/phones/honor-10/
http://site.ru/catalog/electronics/honor-10/
Решение №1
Отказаться от вложенных адресов и формировать адреса товаров независимо от категории:
http://site.ru/detail/honor-10/
http://site.ru/detail/xiaomi-mi-9/
Решение №2
Пользоваться canonical. Для этого один из адресов товара выбираем каноническим и проставляем link rel=»canonical» на страницах с повторяющимися предложениями.
Здесь на помощь приходят различные программы-краулеры. Мой личный фаворит — Netpeak Spider. Другой способ, о котором я уже писал выше – изучение индекса поисковых системах.
И конечно же вы всегда можете обратиться к нам. Поможем устранить дубли, исправить технические ошибки и сделаем ваш сайт удобным и привлекательным для пользователей.
Ямщиков Сергей, интернет-маркетолог
www.oridis.ru
Убираем дубли детальных страниц товаров в 1С-Битрикс
Приветствую, Друзья!
В этом видеоуроке вы узнаете о том, как настроить ЧПУ интернет-магазина на 1С-Битрикс таким образом, чтобы не было дублей детальных страниц товаров.
После летнего перерыва мы продолжаем разбираться в тонкостях создания интернет-магазинов на Битриксе. И за время перерыва мне пришло несколько одинаковых вопросов – некоторые мои подписчики привлекали сторонних специалистов для продвижения своего магазина на Битриксе, некоторые сами делали магазины «под заказ», и наткнулись на проблему дублей детальных страниц. И вопрос один – как избавиться от этих дублей.
Дело в том, что дубли могут появиться из-за особенностей обработки ЧПУ Битрикса. Движок позволяет нам положить один и тот же товар в разные категории. Например, зарядка для телефона бренда Sony может лежать в категории Sony и в категории Аксессуары одновременно. И в адресной строке мы в итоге получим два разных адреса для отображения одной и той же страницы товара.
Но эту проблему можно решить штатными методами, просто немного подкорректировав шаблоны создания ссылок на детальную страницу в 2-х местах. Проблема решается за 2 минуты, все подробности в видео чуть ниже.
Только, если магазин у Вас работает уже давно и он проиндексирован поисковиками, то делая рассмотренную в видеоуроке операцию Вы полностью переделываете адресную структуру каталога и вам придется отдельно заниматься переиндексацией своего сайта на страницах для веб-мастеров в каждой поисковой системе отдельно. Или, как вариант, надо будет сделать постоянные (301) редиректы со старых адресов на новые для всех товаров каталога в файле .htaccess и поисковики сами постепенно заменят старые адреса на новые. Эти нюансы я в видеоуроке НЕ рассматриваю, пусть этим занимаются спецы по SEO.
Итак, всем, кто живо интересуется SEO оптимизацией своего интернет-магазина на Битриксе, рекомендую посмотреть новое видео:
На этом сегодня все! Не забываем жать на социальные кнопки слева и задавать свои вопросы чуть ниже в комментариях!
blog.web-shoper.ru
1С-Битрикс Разработчикам — Поиск и объединение дублей в CRM
Добрый день, коллеги!Сегодня, я поделюсь с вами еще одним сценарием борьбы с дублями в CRM Битрикс24.
Раннее мы представили поиск дублей при создании новой сущности, а также поиск и работу с дублями при импорте контактов. Сейчас на ваших Битрикс24 уже установлено обновление, в котором появился поиск существующих дублей.
Думаю много рассказывать о том, для чего нужен этот инструмент не требуется, так как любая компания, работающая с большой базой клиентов, часто сталкивается с ситуацией когда в базе накапливаются дубли. Порой, даже проверка дублей при создании новой сущности может оказаться не совсем эффективной так как сотрудникам проще зафиксировать свой контакт как новый, нежели сравнивать с тем, что уже есть. Ну а учитывая что проверка в Битрикс24 была реализована не сразу, уверена, в вашей базе уже есть с чем поработать
Давайте же приступим к поиску и объединению дублей в вашей базе CRM.
Как найти дубли в CRM?
Все достаточно просто, поиск выполняется отдельно для каждого списка сущностей: контактов, компаний и лидов.
Для того чтобы начать работу с дублями, необходимо проиндексировать ваши данные, перейдя в список элементов и нажав на соответствующую ссылку. После индексации можно запускать поиск.
Чаще всего, основная информация, которую мы получаем от клиентов – это фамилия, имя, телефон и E-mail, поэтому в качестве параметров поиска, мы выбрали именно эти данные.На странице контроля дублей вы можете выбрать поля, по которым будет выполнен поиск. Среди контактов дубли проверяются по ФИО, телефону и E-mail, среди компаний дубли можно найти по названию компании, телефону и E-mail.
Так как лид — это потенциальный клиент, который может выступать и как физическое лицо – контакт и как юридическое лицо – компания, то здесь мы предлагаем сразу выбрать по какому принципу вы желаете искать дубли. Если вы работаете с лидами только как с контактами, то укажите ФИО, если как с компаниями, то выберите название компании. Если возможны оба варианта, то можно отдельно поработать с дублями по контактному лицу, а затем отдельно выполнить поиск по названию компании.
Как работает поиск дублей?В больших компаниях с клиентами могут работать несколько менеджеров, поэтому
контроль дублей доступен для всех сотрудников, которые имеют доступ к данным CRM. Но каждый сотрудник видит в результате только свои данные и не может объединить схожие контакты другого сотрудника. Т.е. каждый работает со своей базой клиентов.
Конечно, администратор портала имеет доступ ко всем данным и может объединять любые сущности, которые не прошли контроль дублей.
Поиск дублей выполнен, что же дальше?
Здесь начинается самое интересное – процесс объединения найденных дублей.
Хотелось бы сразу отметить, что операция по объединению дублей пока необратима, в некоторых случаях может привести к потери информации или прав доступа. Мы настоятельно рекомендуем заниматься этим вопросом только ответственным лицам, которые смогут проанализировать данные перед тем как слить все в единую сущность.
Чуть позже, мы планируем реализовать отдельную страничку с историей объединения дублей, где можно будет посмотреть все действия и даже восстановить элементы, если это будет необходимо.
Итак, перед тем как начать объединение, обратите внимание, что список построен с учетом некоторых параметров, которые выявляют главную сущность, а к ней уже предлагают возможные дубли.
Первая, главная сущность определяется не случайно, система проверяет сразу несколько параметров для ее выявления:
— индекс цитируемости — как часто менеджер работает с этим элементом, сколько связей с другими сущностями, сделками, делами, счетами, предложениями.
— дата изменения — та сущность, с которой работали совсем недавно, считается более актуальной нежели другие.
— наполненность карточки – тоже немаловажный критерий, ведь среди двух контактов, у одного из которых заполнено только ФИО, а другого полная карточка, второй явно будет важнее.
— права доступа – этот параметр влияет на порядок данных. Те сущности, которые доступны пользователю только для просмотра, будут отображаться в конце списка, так как объединить их все равно нельзя.
В списке доступны несколько колонок, которые показывают данные тех полей, по которым выполнялся поиск. Визуально можно сразу увидеть по каким критериям контакты были отмечены как дубли. Дополнительно, система сама подскажет что найдено 2 совпадения по телефону или по e-mail и т.д.
Если не вы являетесь ответственным за найденный дубль, то можно быстро связаться с ответственным сотрудником, чтобы уточнить у него возможность объединения, уточнить работает ли он с этим клиентом и есть ли какая-то важная информация, которую он хотел бы сохранить. Для осуществления звонка достаточно прямо в списке дублей нажать ссылку Написать или Позвонить в последней колонке.
Если для уточнения дубля вам требуется более детально ознакомиться с карточкой элемента, можно просто перейти по ссылке.Если вы уверены что данные не являются дубликатами, просто выделите элемент в списке и нажмите кнопку «Пропустить»
В этом случае дубликат будет исключен из списка. Но обратите внимание, что ниже по списку этот же элемент может быть представлен как дубль к другому контакту. Т.е. пропустить означает что выделенные элементы не дубли, но при этом они могут быть дублями к другим.
Если вы уверены, что сущности действительно являются дублями и хотите объединить их в одну, главную сущность, также выделите данные в списке и нажмите кнопку «Объединить»
Что происходит при объединении?Еще раз прошу вас обратить внимание, что процесс объединения пока необратим. В результате объединения могут быть изменены права доступа, часть информации, такая как история, события ленты, список товаров могут быть удалены, так как основной информацией являются данные в главной сущности.
Итак, в списке вы видите главную сущность и возможные к ней дубли. При объединении, все данные будут сливаться в главную сущность, при этом множественные поля будут просто дополняться, пустые поля будут заполнены данными с дубля, а вот те поля, которые заполнены и в главной сущности и в дубле не будут объединены.
Т.е. если есть обычное, не множественное поле и оно заполнено в главной сущности, то в конечном результате, после объединения, именно это значение и будет сохранено. В этом случае лучше сравнить сущности межу собой перед объединением чтобы случайно не удалить важную информацию.
Все привязки к сделкам, счетам, делам, задачам, будут автоматически изменены. Если раньше сделка была связана с дублем, то после объединения в ней будет ссылка на главную сущность, в которую был слит этот дубль.
События живой ленты о создании нового дела, счета и т.д. перенесены в главную сущность не будут.
Права доступа после объединения остаются только у главной сущности, так как все дубли будут просто удалены (пока нет их восстановления). Но если в результате объединения кто-то из менеджеров может потерять доступ к своему контакту, то перед объединением вам будет показано предупреждение.
Теперь контролировать дубли можно не только при импорте и создании новых данных, но и проверять существующую базу.
Так как данные постоянно меняются: кто-то создает новые, кто-то удаляет или объединяет свои дубли, рекомендуем при каждом обращении к списку дублей обновлять его по кнопке «Обновить».
Чуть позже планируем дополнить этот сценарий еще одной страничкой, на которой будет отображаться история работы с дублями. С этой страницы можно будет восстановить элементы, которые были ошибочно объединены.Объединение дублей важный и нужный механизм, но на самом деле очень не простой. Я буду рада, если вы поделитесь своими впечатлениями, комментариями, замечаниями. Нам очень важно получить от вас обратную связь, понять, что мы сделали удобный механизм, а если пока нет, то сделать его таким
dev.1c-bitrix.ru
BITRIX — прячем дубли страниц с помощью rel=»canonical» » Блог Загвосткина Владислава
Не нравится мне Битрикс, особенно в плане seo-оптимизации. Но есть немало интернет-магазинов на этой CMS и благодаря теории вероятности мне «посчастливилось» с ним столкнуться. Любит он плодить дубли страниц, особенно на товары, которые присутствуют в разных категориях, и штатными средствами решения этой проблемы пока нет.
Допустим, у нас есть товар — планшетофон, назовем его «TabSmart x28″ который относится и к планшетам и к смартфонам. И показывается он у нас в категориях /catalog/smartphones/ и /catalog/tablets/. Соответственно если ЧПУ настроены на вывод категорий, то мы получим две одинаковые страницы по адресу
/catalog/smartphones/tabsmart-x28/ и /catalog/tablets/tabsmart-x28/
Причем часть посетителей будут попадать на первую, а часть на вторую.
Теоретически ничего страшного в этом нет, но если посмотреть внимательно, то мы увидим следующее:
1) Дубли мета-тегов (TITLE, DESCRIPTION)
2) Дубль контента
что для SEO не очень то и хорошо. Поисковики будут ругаться на дубли, показывать в выдаче только одну страницу из двух, а может и вовсе засунут куда подальше, а нам с вами этого очень бы не хотелось.
В этой статье мы рассмотрим вариант борьбы с дублями на основе тега rel=»canonical», который рекомендует использовать Google support.google.com/webmasters/answer/139066?hl=ru
Столкнувшись с этой проблемой я надеялся найти готовое решение, но к удивлению ничего толкового не нашел.
Программистов под рукой тоже не было, поэтому пришлось писать самому, на коленке. Возможно он не блещет красотой и минимализмом, но со своей задачей справляется на ура.
Итак, приступим:
Создаем польз. свойство у инфоблока категорий «Канонический URL» с id CANONICAL
(Контент -> инфоблоки -> типы инфоблоков -> Каталог -> Каталог товаров)
В шаблоне карточки товара (в дефолтном шаблоне лежит примерно тут: /bitrix/components/bitrix/catalog.element/templates/.default/template.php)
в самом верху добавляем
<? $APPLICATION->SetPageProperty(‘canonical’, $arResult[«PROPERTIES»][«CANONICAL»][«VALUE»] ); ?> |
в шаблоне header.php между тегами <head></head> вставляем код
<?php function ShowCanonical(){ global $APPLICATION; if ($APPLICATION->GetProperty(«canonical»)!=»» && $APPLICATION->GetProperty(«canonical»)!=$APPLICATION->sDirPath){ return ‘<link rel=»canonical» href=»‘.$APPLICATION->GetProperty(«canonical»).'» />’; } else {return false;} } $APPLICATION->AddBufferContent(‘ShowCanonical’); ?> |
Все. Теперь идем в карточку товара, у которой есть дубли, находим поле «Канонический URL» и вставляем в него путь до карточки товара, которую хотим обозначить как каноническую, но без указания домена, например /catalog/tablets/tabsmart-x28/
Теперь все страницы, которые будут отображать этот товар по другим URL’ам будут иметь тег <link rel=»canonical» href=»канонический URL» />
vladislav.kz
Дубли страниц сайта. Находим и устраняем
Рост количества дублей страниц – одна из основных причин, способствующих потере трафика и ухудшению позиций сайта. Существует множество факторов, влияющих на увеличение числа дублей. Как правило, их планомерный рост обусловлен особенностями работы CMS, а также сознательным или неосознанным размещением ссылок на дубли с других порталов.
Содержание статьи:
Современные поисковые алгоритмы постоянно оптимизируются. Сегодня разработчики внедряют технологию, способную самостоятельно распознавать и исключать из поиска дубли страниц. Но, как показывает практика, результат работы такого функционала далек от совершенства. Поэтому владельцу сайта лучше всего избавляться от дублей, опираясь на собственные силы и возможности.
Негативные последствия индексации дублей:
- Некорректное распределение внутреннего ссылочного веса. Зачастую на сайте образуются дубли страниц из-за неграмотного размещения внутренних ссылок. В результате, некоторые дубли набирают больше веса, чем оригинал, что недопустимо.
- Проблемы с индексацией ресурса. Предположим, сайт состоит из нескольких тысяч страниц. На каждую страницу создается собственный дубль. В результате, сайт увеличивается в несколько раз. Иногда могут создаваться несколько дублей одновременно и они впустую тратят краулинговый бюджет вашего сайта.
- Снижение внешнего ссылочного веса. Например, посетитель остался доволен ресурсом и решил оставить на страницу внешнюю ссылку. Если он просматривал дубль, то и ссылка будет идти именно на него. Таких дублей может набраться очень много!
- В результатах поисковой выдачи меняется релевантная страница. В любой момент поисковые алгоритмы могут воспринять дубль более релевантным запросу. При смене страницы в результатах выдачи происходит существенное снижение позиций и трафика.
Сегодня Яндекс относится к дублям не очень строго. Они, в некоторых случаях, могут не оказывать никаких изменений на результаты поиска. Но вот поисковая система Google к дублям относится более ответственно, поэтому лучше удалить дубли страниц.
Увендомление о дублях страниц в Гугле
Поиск дублей страниц
1. Google Webmasters
Самый простой способ – анализ данных с помощью сервиса Google Webmasters. Для того, чтобы с помощью программы отыскать дубли, следует зайти в панель инструментов и выбрать пункт ”Вид в поиске”. Далее нужно перейти по ссылке ”Оптимизация HTML”.
Интерфейс Гугл Вебмастер
Очень важны следующие пункты: ”Повторяющиеся заголовки”, ”Повторяющиеся метаописания”. Это связано с тем, что на страницах зачастую дублируется не только контент, но и мета-данные. Проанализировав страницы, которые отображаются во вкладках, можно отыскать все существующие дубли. Грамотные веб-мастера периодически используют указанные выше вкладки на поиск ошибок.
В том случае, если у владельца сайта нет доступа к панели, то сайт все равно можно проверить на наличие дублей. Для этого следует воспользоваться обыкновенным поиском. В поисковой строке вводится запрос:
- A. Для Google вводится запрос в форме: site: sitename.ru intitle:анализ сайтов.
- B. Для Яндекса вводится запрос в форме: site: sitename.ru title:
Вместо sitename необходимо указать название своего сайта и часть заголовка, дубль которого нужно отыскать.
2. Анализ полученных после индексации данных
Для анализа лучше всего отдавать предпочтение тем поисковым системам, которые проиндексировали максимальное количество страниц. Как правило, такой системой является именно Google.
Результат работы оператора site: в гугле
С помощью оператора site: можно увидеть весь список страниц. В конце такого списка есть ссылка ”Показать скрытые результаты”. Нажав на ссылку, можно увидеть скрытые страницы. Таким образом можно легко найти дубли страниц на небольшом сайте.
3. Анализ фрагментов текста
Выше описаны способы, позволяющие отыскать дубли при совпадении мета-тегов. Но, бывают ситуации, когда на сайте есть дубли с уникальными мета данными. Для их поиска следует ввести фрагмент текста в поисковой системе, используя расширенный поиск. Текст должен располагаться в кавычках.
Поиск дублей по тексту в Яндексе
После того, как все дубли будут обнаружены, их следует своевременно удалить (закрыть от индексации). В файле robots.txt можно запретить доступ поисковым роботам к определенным разделам. Также для того, чтобы убрать дубли страниц может использоваться специальный атрибут rel=»canonical».
Поиск дублей по контенту в Google
4. С помощью специального софта
Сегодня проверить дубли страниц можно и с помощью специального софта. Например, с помощью NetPeak Spider.
Базовые дубли
К базовым относятся:
- дубли главной страницы
- дубли www / не www
Они должны быть обязательно устранены с помощью 301 редиректа.
Дубли страниц в Joomla
Любая система управления генерирует дубли. Джумла — не исключение. Вообще, в joomla убрать дубли страниц достаточно просто. Нужно понимать, откуда они получаются:
- Фильтры в каталоге товаров (joomshopping генериует массу дублей страниц)
- Страницы пагинации с товарами
- Страницы пагинации с новостями
- Страницы компонентов (например, k2)
Достаточно просто убрать убрать дубли страниц joomla 3 можно с помощью правил в файле robots.txt.
Для каталогов, если товар может присутствовать в нескольких категориях, то для удаления дублей страниц в Джумле лучше использовать rel=»canonical»
Дубли страниц в WordPress
Вордпресс также генерирует дубли страниц. В данной CMS это страницы категорий, тегов. Если встроены плагины электронной коммерции, то они могут плодить дубли в огромном количестве.
Убрать дубли страниц в wordpress достаточно просто с помощью robots.txt
Дубли страниц в Opencart
Система OpenCart также неидеальна в плане дублей. С учетом того, что реализовать ЧПУ на таком сайте — задача нетривиальная, то и борьба с дублями тут несколько затруднена.
Источники дублей аналогичны: фильтры товаров, товарные категории
Можно попытать убрать дубли страниц opencart с помощью robots.txt, но лучше использовать rel=»canonical»
Дубли страниц в Битрикс
В системе управления битрикс дубли страниц также являются проблемой. Источник всё тот же: категории, товарные фильтры. Тут ещё в дело входят кривые руки разработчиков. Поэтому иногда сайты на битрикс могут генерировать миллионы дублей, которые нужно сразу закрывать от индексации.
Сюда же добавляется проблема со страницей 404 (страница не найдена), когда несуществующие страницы из-за некорректных настроек сервера отдают статус 200 (страница найдена).
Удалять дубли в битрикс нужно ещё на этапе разработки. И уделять этому повышенное внимание!
Дубли страниц в dle
Источник дублей страниц в DLE такой же, как и в WordPress. Методы борьбы с ними аналогичные.
Дубли страниц в modx
В modx дубли также возникают в категориях, тегах и фильтрах. Методы борьбы стандартные.
Хотите задать вопрос или заказать услугу? Пишите!
Гарантирован ответ в течение 1 часа в рабочее время!
Понравилась статья? Поделись ею с друзьями!
eduardkozlov.ru