Директива Clean-param для закрытия в Яндексе страниц с параметрами (UTM. openstat) в robots.txt — Сосновский.ру
🖖 Недавно я опубликовал пост о том, как бесплатно получать ссылки с главных страниц форумов в свой телеграм @sosnovskij. Туда я публикую посты, не попадающих под формат блога. Подключайся! 🔌.
Если сделать опрос среди вебмастеров/оптимизаторов, слышали ли они про директиву Clean-param (от англ. clean parameters — чистые параметры), то практически все ответят положительно. Но если задать вопрос про ее использование, то ответы будут уже отрицательными. Что же это за такой зверь, которого все боятся и «с чем его едят»?
Для кого будет полезен Clean-param
Содержание:
- Для кого будет полезен Clean-param
- Как применять директиву?
- Некоторые особенности
Могу поздравить тех, кто до сих пор с потом на лбу читает про эту директиву . В большинстве случаев применять ее не нужно. Но также есть достаточно большой пул проектов, для которых ее применение необходимо или желательно:
1. Рекламируются на сторонних площадках, а переходы осуществляются не по прямым ссылкам. Например, при переходе с Яндекс.Маркета открывается URL с параметром frommarket.
В данном случае в индексе оказывается страница мобильной версии на поддомене. На ней стоИт междоменный rel=»canonical», который не учитывается Яндексом (хотя были случаи, когда учитывался).
Вот другой случай проиндексированных документов с параметрами.
2. Используют UTM-метки во внешних ссылках. Например, таким образом отслеживают эффективность рекламных каналов.
https://sosnovskij.ru/catalog/?utm_source=yandex&utm_medium=cpc&utm_campaign=audit
3. Содержат в URL параметры, не меняющие содержание страницы, например, идентификаторы сессий.
https://sosnovskij.ru/index.php?sessionID=jf1d3ks2fj7dss3fs33
4. Имеют большие масштабы — от нескольких десятков тысяч документов.
Робот Яндекса не будет каждый раз перезагружать страницы с множеством параметров (указанные в директиве параметры будут «опускаться» или не учитываться, как будто их и нет — объединяться в рамках одного URL). Тем самым краулинговый бюджет будет направлен на по-настоящему важные страницы. Дополнительно улучшится индексация сайта (ускорится переиндексация), в индекс будут быстрее попадать новые материалы, уменьшится нагрузка на сервер.
Как применять директиву?
Важное уточнение! Clean-param понимает только Яндекс. У Гугла был похожий инструмент, но в старой версии Google Search Console.
Директива прописывается в robots.txt в любом месте файла. В примерах официальной инструкции clean-param всегда указывался после User-agent: Yandex.
Я уточнил, обязательно ли указывать директиву именно для Yandex (я сторонник не плодить лишних юзер-агентов в роботсе, если на то нет объективных причин). Ответили следующее:
Директива Clean-param — межсекционная, поэтому будет учитываться в любом месте robots.txt, как для User-Agent: *, так и User-Agent: Yandex
Например, необходимо, чтобы все приведенные примеры не попадали в индекс (+ добавлю openstat):
- https://sosnovskij.
- https://sosnovskij.ru/catalog-old/54347/?r1=yandext&r2=
- https://sosnovskij.ru/catalog/?utm_source=yandex&utm_medium=cpc&utm_campaign=audit
- https://sosnovskij.ru/index.php?sessionID=jf1d3ks2fj7dss3fs33
- https://sosnovskij.ru/page.php?_openstat=dTsx2MjM0OzU2Ndzg5O3lhbmRleC5ydT54pwcmVtaXVt
Добавляем в robots.txt в любое место под User-Agent: * или под User-Agent: Yandex (если есть оба, то под User-Agent: Yandex) следующие правила:
Clean-param: frommarket /catalog*/magazin/
Clean-param: yandext /catalog-old/
Clean-param: utm_source&utm_medium&utm_campaign /catalog/
Clean-param: sessionID /index.php
Clean-param: _openstat /page.php
Директива состоит из 2-х важных частей (с пробелом между ними):
1. Параметр. Здесь указываются параметры, которые необходимо игнорировать поисковому роботу (в примере «frommarket», «sessionID» и т.д). На 3-й строчке вы можете видеть конструкцию со знаком «&». Амперсанд используется в качестве аналога логического союза «и», объединяя параметры в одну строку. Этот момент я также уточнял у службы поддержки Яндекса. Мой вопрос:
Здравствуйте! Подскажите, пожалуйста, по использованию &» в директиве clean-param. Оно трактуется как «и» или «или»? То есть, например, имеются следующие URL:
— /category/1/?page_count=12 (только параметр page_count)
— /category/1/?pgen=3 (только параметр pgen)
— /category/1/?page_count=12&pgen=3 (и page_count, и pgen).Если директива будет указана следующим образом:
Clean-param: page_count&pgen /category/
То она затронет все URL или только последний? Если последний, то корректнее будет следующий вариант? Clean-param: page_count /category/
Clean-param: pgen /category/С уважением, Сергей.
Ответили достаточно быстро:
Воспринимается как «и». Вы вполне можете использовать директиву Clean-param: page_count&pgen, хотя и второй вариант ошибкой не будет.
В общем, советую использовать «&» только тогда, когда указанные через амперсанд параметры используются в URL всегда вместе. В остальных случаях лучше написать дополнительное правило.
2. Префикс. Путь до URL с параметром. Здесь указываем маску урлов, как при стандартном закрытии страниц в rotobs.txt. Можно использовать знак звездочки «*» в качестве замены любого количества символов. По умолчанию «*» неявно проставляется в конце префикса (в конце дополнительно звездочку ставить не нужно).
Кидайте в комментарии ваши примеры URL, которые необходимо «закрыть» с помощью Сlean-param. Я напишу, какую директиву добавить в robots.txt .
Некоторые особенности
- Учитывается регистр. UTM и utm — это 2 разных параметра. То же самое и в префиксах.
- Указывайте параметр полностью. Не «utm», а «utm_source». Вдруг у вас сайт на ЧПУ и есть материалы про такие популярные темы как: дутма (dutma), бутман (butman) или рекрутмент (rekrutment) .
- Подобные документы с различными параметрами можно закрывать и стандартными методами (canonical, <meta name=»robots» content=»noindex. nofollow»> и т. д.), но их не всегда возможно реализовать (необходимо дорабатывать код сайта). Дополнительно rel=»canonical» Яндекс не считает за строгое правило. Clean-param в некоторых случаях может быть надежнее и проще. Да и поисковому роботу не придется перебирать значения параметров. Как итог — ускорение и более полная индексация сайта.
Расскажите, а вы когда-нибудь использовали Clean-param в своей практике? Если да, то для каких случаев. Будет интересно ознакомиться с вашим опытом .
Что такое персонализированный поиск в Яндекс и как он работает? — OKOCRM
Попробуйте OkoCRM бесплатно
CRM-система, управление проектами и задачами, общение с клиентами и каналы продаж — всё внутри OkoCRM. 7 дней бесплатно.
На страницу OkoCRM
Алгоритмы Яндекса поумнели. Робот предугадывает ожидания и формирует выдачу индивидуально. Как давно знакомая продавщица из продуктового: видит нас и сразу пакует буханку “ржаного». Казалось бы, ничего плохого, ведь «всё для людей». Гибкость адаптации поисковых систем может прилично облегчить жизнь. Но здесь, как и везде, не обходится без подводных камней.
Сегодня мы рассмотрим, что собой представляет в 2021 году персонализированный поиск в Яндексе. Оценим его роль не только для рядового пользователя, но и для разработчика или владельца коммерческого сайта.
Что влияет на результаты поиска
Яндекс уже 10 лет персонализирует поиск. Сейчас на его результаты могут повлиять многие факторы, и вот самые ощутимые:
- геозависимость
- история поиска
- история посещений
- языковые предпочтения
- социальные связи
- тип устройства
Геозависимость
Результаты поиска по одному и тому же запросу будут разными в разных странах и даже городах. И на степень геочувствительности можно влиять, формируя по-разному запросы. Например, по запросу «кофейня рядом» или «аптека возле меня» находясь в Москве вы получите одни результаты, а в Екатеринбурге другие, и это очевидно. И чем больше у поисковика данных об инфраструктуре населённого пункта, тем подробнее будет персонализация — вплоть до изменений выдачи на разных улицах.
Вот, что увидит москвич по запросу “кофейня рядом”
А это тот же самый запрос, но уже в Екатеринбурге
Это удобно и пользователями только приветствуется, но с точки зрения вебмастера, такая закономерность не даёт никаких гарантий.
Так, например, независимый сервис проверки позиций покажет объективное положение вашего сайта в выдаче по тому или иному запросу с учётом географии — почтовый индекс, указание названия населённого пункта.
Но обычный пользователь получит другие результаты. Потому что на его выдачу влияет история поиска, язык, тип устройства и остальные фильтры.
История поиска
На выдачу влияет то, чем вы интересовались ранее. Здесь поисковик учитывает всё, до чего может дотянуться: что вы искали минуту назад, что вы ищете чаще всего, и как текущий запрос соотносится со всем предыдущим.
Выводы поисковой машины влияют как на саму выдачу, так и на подсказки в выпадающем списке по мере набора запроса в строке. Так поисковик подстраивается под пользователя в реальном времени, буквально «здесь и сейчас».
Вот так история поиска влияет на выдачу и на подсказки.
История посещений
Поисковая система заинтересована, чтобы знать максимум не только о том, что пользователь ищет, но и о том, какие сайты он посещает. Первые такие подходы были реализованы ещё в 2012 году с запуском алгоритма Калининград. Уже тогда Яндекс стал учитывать интересы пользователя, перетасовывая сайты в выдаче так, чтобы «близкие по духу» оказывались выше.
И, казалось бы, именно эти данные и являются реальными, и именно их стоит принимать во внимание, оценивая реальное положение вещей с продвижением сайта. Но, с другой стороны, таких “стерильных” пользователей в реальности не бываеты.
Языковые предпочтения
Сразу уточним — имеются в виду именно предпочтения, а не только избранный язык в системе и в настройках среды поисковика. Эти моменты Яндекс научился учитывать ещё в 2011 году с введением алгоритма Рейкьявик. Собственно, эпопея с персонализацией поиска с него и началась.
Алгоритм принимает во внимание язык посещаемых сайтов и делает выводы. И если у пользователя система на русском языке, но он время от времени осознанно читает немецкие сайты, то поисковик быстро сориентируется. По некоторым запросам он начнёт вставлять в выдачу сайты на немецком языке, чего и близко не будет происходить у других пользователей. Это же коснётся и выбора языковых версий мультиязычных сайтов.
Социальные связи
В 2021 году соцсети проникли всюду. Даже standalone-сайты на независимых платформах включают в свой контент служебные элементы социальных сетей — кнопки «поделиться», возможность оставлять комментарии к публикациям, ставить оценки.
Такой огромный пласт информации о собственных пользователях никакой уважающий себя поисковик не станет игнорировать. При всей заявленной строгой конфиденциальности личных данных пользователей соцсетей, масса информации находится в открытом доступе безо всяких запретов. О способах регистрации на ресурсах посредством имеющихся аккаунтов в соцсетях и говорить не приходится — обмен данными пользователей между роботами поисковиков идёт полным ходом.
Отсюда мы получаем ещё один фактор персонализации — чувствительность поисковика к вашей социальной активности и даже к предпочтениям френдов.
Тип устройства
Поисковая выдача по одному и тому же запросу может радикально отличаться на ПК и на носимом гаджете. И это логично — разные поведенческие факторы, статистика, показатели по переходам.
Объём мобильного трафика уже давно превышает десктопный, и коммерческий трафик — не исключение. Если мобильной версии у сайта нет, он рискует вообще не попасть в выдачу даже по самому релевантному запросу со смартфона или планшета.
Управляйте бизнесом в OkoCRM
Аналитика воронки продаж, чаты и звонки клиентам, автоматизация рассылок, шаблоны документов и многое другое для вашего бизнеса в одной OkoCRM.
Узнать подробнее
Плюсы и минусы персонализации в поисковиках
Если суммировать всё то, что собой представляет персонализированный поиск в 2021 году, то мы видим очевидно больше плюсов, чем минусов. И стоит разделять преимущества и недостатки, актуальные для рядовых пользователей и владельцев сайтов.
Для рядового пользователя
Для повседневного пользования персонализация, экономит время и делает поиск максимально удобным. Поисковик эффективно обучается, подстраивается под ваши интересы, учитывает местоположение — всё это удобно и полезно. Но если у вас один компьютер на большую семью, то это уже не будет работать. Разве что никто не ленится логиниться под отдельными учётными записями в операционной системе.
Ещё один побочный эффект — постепенное формирование некоего «пузыря» из самых часто посещаемых сайтов в интересующих тематиках. Поисковик руководствуется принципом “лучшее — враг хорошего” и постепенно может вас лишить альтернативных точек зрения, других вариантов получения услуг, интересных новинок.
Плюсы | Минусы |
Меньше времени на поиск действительно нужной информации | Образование «пузыря интересов» и сужение поля альтернатив |
Удобство мгновенной выдачи по региональному признаку | Искажение соответствия, если одним компьютером пользуются разные люди |
Для вебмастера или владельца сайта
Индивидуальный подход к выборке создаёт больше возможностей для рекламы и привлечения лояльных посетителей сайта. Повышается конверсия — результаты поиска в среднем будут точнее для каждого отдельного посетителя, и тем вероятнее, что он найдёт на вашем сайте именно то, что ему нужно. Прямое следствие — снижение стоимости привлечения клиента. Отсюда — оптимизация рекламных бюджетов.
С другой стороны, на положение вашего сайта в выдаче может негативно повлиять история посещений у конкретного пользователя. А если вы попытаетесь отследить положение сайта, пользуясь своим привычным браузером, то здесь персонализация будет вредить — сайт всегда будет красоваться на первых местах, но только лично для вас.
Плюсы | Минусы |
Повышение конверсии | Не всегда уместное влияние истории поиска |
Снижение затрат на рекламу | Сложности с отслеживанием реальных позиций |
Повышение лояльности целевой аудитории |
Как отключить персонализацию?
Сразу уточним — отдельной кнопки, которая бы разом отключила все факторы персонализации выдачи Яндекса, не предусмотрено. Поэтому к вопросу нужно подходить комплексно. В настройках можно, как минимум, установить настройки поиска без учёта личных данных.
Отключить учёт личных данных
Зайти на страницу настроек Яндекса, и снять галочки со всех пунктов, которые могут повлиять на результаты. По умолчанию настройки учёта личных данных выглядят так:
Персонализацию можно частично отрегулировать в настройках.
Изменить регион
По умолчанию Яндекс автоматически определяет регион. Функция работает далеко не идеально, особенно, если вы находитесь за рубежом. Настройки можно задать вручную.
Ручная установка местоположения в Яндексе.
Режим инкогнито
Такой режим поддерживают все популярные браузеры. В него можно переключиться простой комбинацией клавиш: Ctrl+Shift+n на Windows или Command+Shift+n на Mac в среде десктопных версий Chrome, «Яндекс.Браузера», Opera, Safari. Откроется новое окно, в котором не будут учитываться персональные данные.
Очистить историю, cookie и кэш
Процедура у каждого браузера своя, и она в целом несложная. Это радикальная мера, которая сводит к минимуму персональные акценты при поиске. Однако, она же и лишает вас многих удобств, ради которых вся эта персонализация и создавалась.
После такой очистки вы потеряете все поисковые подсказки и вам нужно будет снова залогиниться во всех соцсетях и других запароленных сайтах. Плюс, все сайты по новой начнут спрашивать у вас разрешения на использование cookie.
Если это делается ради чистоты эксперимента при проверке позиции вашего сайта, то лучше держать для таких целей отдельный «незамутнённый» браузер.
Подведём итоги
Появление и стремительное развитие персонализации поиска — естественная часть эволюции Яндекса. Странно было бы, если бы это не происходило, учитывая коммерческое значение такой адаптации.
С другой стороны, мы уже сейчас можем наблюдать не самые благоприятные побочные эффекты.
Для вебмастера это искажение объективной расстановки сайтов по позициям в выдаче из-за факторов влияния.
Для простого пользователя — эффект «информационного пузыря», то есть постепенная изоляция от альтернативных ресурсов, которые ничем не хуже “любимых”.
Но всё-таки пользы ощутимо больше, чем неудобств. Поэтому, развитие персонализации поиска пока можно только приветствовать.
Собирайте лиды отовсюду
OkoCRM пылесосит все каналы, по которым приходят клиенты. Сайт, соцсети, мессенджеры, телефония, сделки и проекты внутри одного окна.
Подробности
Лучшие практики, распространенные проблемы и решения
Техническое SEO — это хорошо реализованная стратегия, которая учитывает различные сигналы ранжирования на странице и за ее пределами, чтобы помочь вашему сайту занять более высокое место в поисковой выдаче. Каждая тактика SEO играет важную роль в повышении рейтинга вашей страницы, гарантируя, что поисковые роботы смогут легко сканировать, ранжировать и индексировать ваш веб-сайт.
От времени загрузки страницы до правильных тегов заголовков — существует множество сигналов ранжирования, с которыми может помочь техническое SEO. Но знаете ли вы, что один из самых важных файлов для SEO вашего сайта также находится на вашем сервере?
Файл robots.txt — это код, сообщающий поисковым роботам, какие страницы вашего веб-сайта они могут сканировать, а какие — нет. Это может показаться пустяком, но если ваш файл robots.txt настроен неправильно, это может оказать серьезное негативное влияние на SEO вашего сайта.
В этом сообщении блога мы обсудим все, что вам нужно знать о robots.txt, от того, что такое файл robots.txt в SEO, до лучших практик и правильных способов устранения распространенных проблем.
Что такое файл robots.txt и почему он важен для SEO?Файл Robots. txt — это файл, расположенный на вашем сервере, который сообщает поисковым роботам, к каким страницам они могут и не могут получить доступ. Если поисковый робот попытается просканировать страницу, заблокированную в файле robots.txt, это будет считаться программной ошибкой 404.
Хотя программная ошибка 404 не повлияет на рейтинг вашего сайта, она все равно считается ошибкой. И слишком много ошибок на вашем веб-сайте может привести к снижению скорости сканирования, что в конечном итоге может повредить вашему рейтингу из-за снижения скорости сканирования.
Если на вашем веб-сайте много страниц, заблокированных файлом robots.txt, это также может привести к трате краулингового бюджета. Бюджет сканирования — это количество страниц, которые Google будет сканировать на вашем веб-сайте во время каждого посещения.
Еще одна причина, по которой файлы robots.txt важны для поисковой оптимизации, заключается в том, что они дают вам больший контроль над тем, как робот Googlebot сканирует и индексирует ваш веб-сайт. Если у вас есть веб-сайт с большим количеством страниц, вы можете заблокировать определенные страницы от индексации, чтобы они не перегружали поисковые роботы и не ухудшали ваш рейтинг.
Если у вас есть блог с сотнями сообщений, вы можете разрешить Google индексировать только самые последние статьи. Если у вас есть веб-сайт электронной коммерции с большим количеством страниц продуктов, вы можете разрешить Google индексировать только страницы основных категорий.
Правильная настройка файла robots.txt может помочь вам контролировать то, как робот Googlebot сканирует и индексирует ваш веб-сайт, что в конечном итоге может помочь улучшить ваш рейтинг.
Что Google говорит о файле robots.txt РекомендацииТеперь, когда мы рассмотрели, почему файлы robots.txt важны для SEO, давайте обсудим некоторые рекомендации, рекомендованные Google.
Создайте файл с именем robots.txtПервым шагом является создание файла с именем robots. txt . Этот файл необходимо поместить в корневой каталог вашего веб-сайта — каталог самого высокого уровня, содержащий все остальные файлы и каталоги на вашем веб-сайте.
Вот пример правильного размещения файла robots.txt: на сайте apple.com корневым каталогом будет apple.com/.
Вы можете создать файл robots.txt в любом текстовом редакторе, но многие CMS, такие как WordPress, автоматически создадут его для вас.
Добавление правил в файл robots.txtПосле создания файла robots.txt следующим шагом будет добавление правил. Эти правила сообщат поисковым роботам, к каким страницам они могут и не могут получить доступ.
Существует два типа синтаксиса robot.txt, которые вы можете добавить: Разрешить и Запретить.
Разрешающие правила сообщают поисковым роботам, что им разрешено сканировать определенную страницу.
Правила запрета сообщают поисковым роботам, что им не разрешено сканировать определенную страницу.
Например, если вы хотите разрешить поисковым роботам сканировать вашу домашнюю страницу, добавьте следующее правило:
Разрешить: /
Если вы хотите запретить поисковым роботам сканировать определенный субдомен или подпапку в вашем блоге , вы используете: Disallow: /
Загрузите файл robots.txt на свой сайтПосле того, как вы добавили правила в файл robots.txt, следующим шагом будет его загрузка на ваш сайт. Вы можете сделать это с помощью FTP-клиента или панели управления хостингом.
Если вы не знаете, как загрузить файл, обратитесь к своему веб-хостингу, и они должны вам помочь.
Проверьте файл robots.txtПосле того как вы загрузили файл robots.txt на свой веб-сайт, следующим шагом будет его проверка, чтобы убедиться, что он работает правильно. Google предоставляет бесплатный инструмент под названием robots.txt Tester в Google Search Console, который вы можете использовать для проверки своего файла. Его можно использовать только для файлов robots.txt, которые находятся в корневом каталоге вашего сайта.
Чтобы использовать тестер robots.txt, введите URL своего веб-сайта в инструмент тестер robots.txt, а затем протестируйте его. Затем Google покажет вам содержимое вашего файла robots.txt, а также все найденные ошибки.
Используйте библиотеку роботов Google с открытым исходным кодомЕсли вы более опытный разработчик, у Google также есть библиотека роботов с открытым исходным кодом, которую вы можете использовать для локального управления файлом robots.txt на своем компьютере.
Что может случиться с SEO вашего сайта, если файл robots.txt поврежден или отсутствует?Если файл robots.txt поврежден или отсутствует, поисковые роботы могут индексировать нежелательные для вас страницы. В конечном итоге это может привести к ранжированию этих страниц в Google, что не идеально. Это также может привести к перегрузке сайта, поскольку поисковые роботы пытаются проиндексировать все на вашем сайте.
Неисправный или отсутствующий файл robots.txt также может привести к тому, что сканеры поисковых систем пропустят важные страницы на вашем веб-сайте. Если у вас есть страница, которую вы хотите проиндексировать, но она заблокирована поврежденным или отсутствующим файлом robots.txt, она может никогда не проиндексироваться.
Короче говоря, важно убедиться, что ваш файл robots.txt работает правильно и находится в корневом каталоге вашего веб-сайта. Исправьте эту проблему, создав новые правила или загрузив файл в корневой каталог, если он отсутствует.
Рекомендации по работе с файлами robots.txtТеперь, когда вы знаете основы работы с файлами robots.txt, давайте рассмотрим некоторые рекомендации. Это то, что вы должны сделать, чтобы убедиться, что ваш файл эффективен и работает правильно.
Используйте новую строку для каждой директивыКогда вы добавляете правила в файл robots.txt, важно использовать новую строку для каждой директивы, чтобы не запутать роботов поисковых систем. Это включает в себя правила разрешения и запрета.
Например, если вы хотите запретить поисковым роботам сканировать ваш блог и страницу контактов, вы должны добавить следующие правила:
Запретить: /blog/
Запретить: /contact/
Используйте подстановочные знаки для упрощения инструкцийЕсли у вас много страниц, которые вы хотите заблокировать, добавление правила для каждой из них может занять много времени. К счастью, вы можете использовать подстановочные знаки для упрощения инструкций.
Подстановочный знак — это символ, который может представлять один или несколько символов. Наиболее распространенным подстановочным знаком является звездочка (*).
Например, если вы хотите заблокировать все файлы с расширением .jpg, добавьте следующее правило:
Запретить: /*.jpg
Используйте «$» для указания конца URL-адресаЗнак доллара ($) — это еще один подстановочный знак, который можно использовать для указания конца URL-адреса. Это полезно, если вы хотите заблокировать определенную страницу, но не страницы, следующие за ней.
Например, если вы хотите заблокировать страницу контактов, но не страницу успешного контакта, вы должны добавить следующее правило:
Запретить: /contact$
Использовать каждый агент пользователя только один разК счастью, когда вы добавляете правила в файл robots.txt, Google не возражает, если вы используете один и тот же User-agent несколько раз. Однако рекомендуется использовать каждый пользовательский агент только один раз.
Используйте специфичность, чтобы избежать непреднамеренных ошибокКогда речь идет о файлах robots.txt, специфичность является ключевым моментом. Чем конкретнее вы описываете свои правила, тем меньше вероятность того, что вы совершите ошибку, которая может повредить SEO вашего сайта.
Используйте комментарии, чтобы объяснить людям ваш файл robots. txtНесмотря на то, что ваши файлы robots.txt сканируются ботами, людям по-прежнему необходимо понимать, поддерживать и управлять ими. Это особенно актуально, если над вашим сайтом работает несколько человек.
В файл robots.txt можно добавлять комментарии, поясняющие, что делают определенные правила. Комментарии должны быть в своей строке и начинаться с #.
Например, если вы хотите заблокировать все файлы, оканчивающиеся на .jpg, вы можете добавить следующий комментарий:
Запретить: /*.jpg # Блокировать все файлы, оканчивающиеся на .jpg
Это поможет любому, кому нужно управлять вашим файлом robots.txt, понять, для чего это правило и почему оно существует.
Используйте отдельный файл robots.txt для каждого субдоменаЕсли у вас есть веб-сайт с несколькими субдоменами, лучше создать отдельный файл robots.txt для каждого из них. Это помогает поддерживать порядок и облегчает поисковым роботам понимание ваших правил.
Распространенные ошибки в файле robots.txt и способы их исправленияПонимание наиболее распространенных ошибок, допускаемых людьми при работе с файлами robots.txt, поможет вам избежать их самостоятельно. Вот некоторые из наиболее распространенных ошибок и способы их устранения.
Отсутствует файл robots.txtСамая распространенная ошибка в файле robots.txt — его отсутствие. Если у вас нет файла robots.txt, сканеры поисковых систем будут считать, что им разрешено сканировать весь ваш сайт.
Чтобы это исправить, вам нужно создать файл robots.txt и добавить его в корневой каталог вашего сайта.
Файл robots.txt отсутствует в каталогеЕсли у вас нет файла robots.txt в корневом каталоге вашего веб-сайта, сканеры поисковых систем не смогут его найти. В результате они будут считать, что им разрешено сканировать весь ваш сайт.
Это должно быть одно имя текстового файла, которое должно быть помещено не во вложенные папки, а в корневой каталог.
Нет URL-адреса карты сайтаВаш файл robots.txt всегда должен содержать ссылку на карту сайта вашего веб-сайта. Это помогает сканерам поисковых систем находить и индексировать ваши страницы.
Отсутствие URL-адреса карты сайта в файле robots.txt является распространенной ошибкой, которая не повредит поисковой оптимизации вашего веб-сайта, но ее добавление улучшит ее.
Блокировка CSS и JSПо словам Джона Мюллера, вы должны избегать блокировки файлов CSS и JS, поскольку поисковые роботы Google требуют, чтобы они отображали страницу правильно.
Естественно, если боты не смогут отрисовать ваши страницы, они не будут проиндексированы.
Использование NoIndex в robots.txtС 2019 г., метатег noindex robots устарел и больше не поддерживается Google. Поэтому вам следует избегать его использования в файле robots.txt.
Если вы все еще используете метатег noindex robots, вам следует как можно скорее удалить его со своего веб-сайта.
Неправильное использование подстановочных знаковНеправильное использование подстановочных знаков приведет только к ограничению доступа к файлам и каталогам, к которым вы не стремились.
При использовании подстановочных знаков будьте как можно точнее. Это поможет вам избежать ошибок, которые могут повредить SEO вашего сайта. Кроме того, придерживайтесь поддерживаемых подстановочных знаков, то есть звездочки и символа доллара.
Неверное расширение типа файлаКак следует из названия, файл robot.txt должен быть текстовым файлом, оканчивающимся на .txt. Это не может быть файл HTML, изображение или файл любого другого типа. Он должен быть создан в формате UTF-8. Полезным вводным ресурсом является руководство Google robots.txt и часто задаваемые вопросы Google Robots.txt.
Используйте файлы Robot.Txt как профессионалыФайл robots.txt — это мощный инструмент, который можно использовать для улучшения SEO вашего сайта. Однако важно правильно его использовать.
При правильном использовании файл robots.txt может помочь вам контролировать, какие страницы индексируются поисковыми системами, и улучшить возможности сканирования вашего веб-сайта. Это также может помочь вам избежать проблем с дублированием контента.
С другой стороны, при неправильном использовании файл robots.txt может принести больше вреда, чем пользы. Важно избегать распространенных ошибок и следовать передовым методам, которые помогут вам использовать файл robots.txt в полной мере и улучшить SEO вашего веб-сайта. В дополнение к профессиональной навигации по файлам Robot.txt, динамическая визуализация с помощью создавать статический HTML для сложных веб-сайтов Javascript. Теперь вы можете разрешить более быструю индексацию, более быстрое время отклика и общее улучшение взаимодействия с пользователем.
Поиск и устранение неисправностей обходчика | Документация Swiftype
«Помогите! Мои веб-страницы не проиндексированы и/или устарели!»
Искатель Site Search будет сканировать и индексировать страницы, если у него есть доступ и чтение этих страниц.
Понимание основ обнаружения контента может решить множество проблем с индексированием.
В некоторых случаях некоторые элементы могут быть неправильно настроены на панели управления поиском по сайту.
В других случаях могут быть проблемы с кодом вашего веб-сайта.
- Понимание обнаружения содержимого
- Устранение неполадок приборной панели
- Устранение неполадок веб-сайта
Понимание обнаружения контента
Даже если ваши веб-страницы настроены правильно, сканер должен обнаружить их – проиндексировать их .
Искатель может сканировать HTML-контент: у вас должно быть как минимум
и
.
Гусеничный Дискавери — Сканер переходит по ссылкам внутри страниц. Красная страница не найдена, потому что ни одна страница не ссылается на нее!
Поисковый робот начинает с вашей домашней страницы и переходит по каждой обнаруженной URL-ссылке.
Процесс повторяется для каждой просматриваемой ссылки до тех пор, пока все страницы, на которые есть ссылки, не будут проиндексированы.
Если не удается обнаружить страницу по ссылке, как красная страница выше, значит, эта страница не проиндексирована.
Ручное обнаружение содержимого
Иногда может потребоваться вручную обнаружить новые страницы.
Вы можете сделать это тремя способами…
- Добавить этот URL
- API операций обходчика
- Настройка карты сайта
1. Добавьте этот URL-адрес
На панели инструментов щелкните Content , затем найдите URL-адрес для добавления.
Если он не найден, вы можете щелкнуть ссылку Добавить этот URL .
После этого добавьте URL.
Обязательно используйте полное доменное имя (FQDN):
https://example.com/my/example/webpage.html
… А не:
/my/example/webpage. html
Crawler Discovery — Добавить URL-адрес
2. Crawler Operations API
Вы можете использовать конечную точку API Crawler Operaitons crawl_url
. для отправки в URL.
Он будет проиндексирован перед вашим следующим циклом сканирования.
Примечание. Доступно только для гусеничных движков.
curl -X PUT 'https://api.swiftype.com/api/v1/engines/bookstore/domains/4fcec5182f527673a0000006/crawl_url.json' \ -H 'Тип содержимого: приложение/json' \ -д '{ "auth_token": "ВАШ_API_KEY", "url": "http://example.com/new-page" }'
3. Настройте карту сайта
Настройте карту сайта, как показано в Руководство по оптимизации поискового робота .
Dashboard
Если ваши документы не индексируются, возможно, у вас есть ограничительные правила пути.
Нажмите на вкладку Домены , чтобы открыть список просканированных веб-сайтов, и подтвердите это:
Устранение неполадок — Список веб-сайтов в разделе Домены панели поиска по сайту.
Если вы заметили, что не индексируете страницы своего основного веб-сайта или определенного веб-сайта, нажмите кнопку Управление в раскрывающемся списке рядом с веб-сайтом, а затем выберите Управление правилами сканирования :
Устранение неполадок — Поиск Управление правилами сканирования в раскрывающемся меню Управление .
Есть два списка, которые содержат правила: белый список и черный список.
Если у вас есть пути в вашем черном списке, эти страницы не будут проиндексированы:
Устранение неполадок — Мы обнаружили некоторые элементы в черном списке .
Когда кто-то добавляет правило, он может выбирать, как сопоставлять его путь…
Устранение неполадок — Существуют разные способы игнорировать пути — правильно ли они настроены?
Вы можете включить пути, которые вызовут занесение в черный список в соответствии с шаблоном соответствия: Начинается с, Заканчивается с, Содержит или пользовательским регулярным выражением.
Распространенным случаем является случайная неправильная настройка правил пути…
Например, вместо предотвращения индексации URL-адресов, которые Начните с : /hidden
, можно сказать, что URL-адреса, которые содержат : /hidden
. Таким образом, такие результаты, как /tourism/hidden-cove
, не будут проиндексированы, даже если они не находятся в каталоге /hidden
.
Еще один частый паттерн наблюдается в чрезмерно усердных регулярных выражениях…
Если вы занесете в черный список: /
или *
, ни одна из ваших страниц не будет проиндексирована!
Дважды проверьте, что ваши правила пути не несут ответственности за страницы, которые не были проиндексированы.
Распространенные проблемы с веб-сайтом
Код вашего веб-сайта может быть написан таким образом, что скрывает или предотвращает сканирование.
Убедитесь, что следующее в порядке:
- 404 против 200 ответов
- Канонические URL-адреса
- Зависимость от файлов cookie
- Дубликаты документов
- Сканирование JavaScript
- Устаревшие документы
- Удаление документов
- Robots. txt
- Метатеги роботов
- Перенаправления на стороне сервера
404 ответа против 200 ответов
Как только сканер узнает о домене, он продолжит попытки сканирования этого домена.
… Пока он не получит 404.
Некоторые веб-сайты написаны так, чтобы возвращать коды ответа 200
для случайных или групповых ( *
) URL-адресов.
Если сканер обнаружит наличие гибкого шаблона, он попытается просканировать страницы, которые на самом деле не являются страницами.
Другими словами: если сканер получит 200
, он будет продолжать попытки сканирования страниц, даже если они не настоящие .
Это может привести к увеличению количества документов и непреднамеренным расходам.
Вы можете…
- Используйте поиск по сайту, чтобы внести в черный список тот шаблон, который возвращает дополнительные документы.
- Настройте свой веб-сайт так, чтобы только «настоящие» URL-адреса возвращали коды ответов
200
.
Ответ 404
или правило черного списка сообщит сканеру: «Здесь не на что смотреть», и он будет двигаться дальше.
Канонические URL-адреса
Канонические URL-адреса могут быть полезны для целей SEO и для обработки дублирующегося контента.
Но при неправильной настройке они могут вызвать проблемы для обходчика поиска по сайту.
Возможны два распространенных случая:
- Неправильные канонические URL-адреса
- Циклы перенаправления
Неправильные канонические URL-адреса
При создании элементов канонической ссылки они должны включать точный URL-адрес.
Допустим следующий тег , если страница на самом деле https://example.com
.
URL-адрес, отображаемый при просмотре страницы , должен совпадать с каноническим URL-адресом.
Если вы посещаете страницу https://example. com/sushi, элемент канонической ссылки должен выглядеть так:
Если текущая страница и канонический элемент отличаются всего на один символ, могут возникнуть серьезные проблемы.
Циклы перенаправления
Иногда настройки перенаправления могут поместить сканер в бесконечный цикл.
Сканер будет следовать каноническому URL-адресу.
Если этот канонический URL-адрес перенаправляет обратно на исходную страницу, начинается цикл.
Например, если на ваших страницах было:
И URL-адрес имел перенаправление, так что https://example.com/tea/peppermint
перенаправляли на https://example.com/tea/peppermint/
, то сканер будет ходить туда-сюда, туда-сюда, туда-сюда… и в конце концов потерпит неудачу.
Зависимость от файлов cookie
Ваш веб-сайт может зависеть от файлов cookie.
Если для доступа к определенной странице требуется файл cookie, сканер не сможет просканировать страницу. Искатель ничего не знает о файлах cookie.
Вот как сайт может применить зависимость от файлов cookie и как отреагирует сканер:
- https://example.com перенаправляет на https://example.com?cookieSet=true, чтобы установить файл cookie в браузере пользователя.
- Если файл cookie успешно установлен, пользователь перейдет на фактический веб-сайт: https://example.com.
- Если браузер не получает cookie, сеанс перенаправляется на: http://example.com/noCookieReject, который не имеет содержимого.
Искатель выполнит перенаправление на шаге 1, но не получит файл cookie.
Он будет перенаправлен на http://example.com/noCookieReject — в большинстве случаев эти страницы не содержат контента или дальнейшего перенаправления.
Правильный контент не проиндексирован, хотя сканер может подумать, что он обнаружил страницу.
Существует два рекомендуемых исправления:
- Удалите зависимость от файлов cookie.
- Добавьте условие, которое позволит агенту сканера — Swiftbot — сканировать страницы без файлов cookie.
Дубликаты документов
У вас есть дубликаты документов?
Краулер будет обрабатывать их как можно лучше, но иногда они все же могут появляться.
Метатег Canonical может помочь вам управлять обработкой повторяющегося контента во время веб-сканирования.
Позволяет поисковым роботам распознавать дублирование контента на сайте. Он направляет их на окончательный URL.
Узнайте больше о канонических метатегах и о том, как их внедрить на свой сайт, от надежного Moz.com.
Убедитесь, что вы правильно реализовали их, иначе вы будете читать следующий раздел по устранению неполадок с каноническими URL!
Сканирование JavaScript
Сканер может сканировать HTML-страницы. Но он не может обрабатывать JavaScript.
Для сканирования HTML-страниц требуется как минимум набор тегов
и
. Это означает, что сканер может индексировать динамическое содержимое AJAX или одностраничного приложения, если ваш сервер может вернуть предварительно обработанный снимок HTML.
Подробнее об этой практике можно прочитать в этом (теперь устаревшем) руководстве по спецификациям Google.
Для помощи в создании этих предварительно обработанных страниц люди успешно использовали службы промежуточного программного обеспечения, такие как prerender.io.
Если инфраструктура вашего сайта или приложения не поддерживает службы промежуточного программного обеспечения, вы можете рассмотреть возможность создания своего движка через API.
Устаревшие документы
Возможно, вы обновили свои метатеги, чтобы изменить свои документы, и заметили, что это изменение не отражается в вашем движке.
Каждый раз, когда вы вносите изменения в код своего веб-сайта, страницы необходимо повторно просканировать , прежде чем изменения отразятся в вашем движке.
Щелкните Домены , затем выберите Повторное сканирование , чтобы начать повторное сканирование:
Устранение неполадок — Запустить повторное сканирование домена.
Кроме того, вы можете использовать Crawler Operations API, чтобы указать URL-адрес или домен для повторного сканирования.
Поиск по сайту содержит инструмент Live Index Preview Tool , который сравнивает документ в вашем движке с активной версией страницы.
Нажмите Content на панели поиска по сайту.
Оттуда найдите документ, который, по вашему мнению, может быть устаревшим:
Контроль доступа — Нажмите «Настройки» в разделе «Моя учетная запись».
Щелкнув по документу, вы увидите кнопку с изображением молнии в верхнем правом углу:
Устранение неполадок — Поиск кнопки с изображением молнии.
Произойдет быстрое сканирование целевой страницы, и появится живая копия документа, сравниваемая с документом в вашем движке:
Устранение неполадок — Документ Engine по сравнению с активной страницей.
Если вы заметили, что две копии различаются, это может указывать на необходимость повторного сканирования страницы.
Удаление документов
Хотите удалить документ из вашего Engine?
Применить метатеги noindex к соответствующей веб-странице.
Краулер удалит документ из вашего двигателя после следующего обхода.
Robots.txt
Веб-сайт обычно включает файл robots.txt. Это не обязательно, но его наличие может помочь указать, куда могут и не могут идти сканеры.
Введите robots.txt после URL вашего веб-сайта, например: https://example.com/robots.txt
. Это проверит, есть ли он у вас в местоположении по умолчанию.
Искатель Site Search, как и все поисковые роботы, будет подчиняться инструкциям в файле robots.txt. Если ваш веб-сайт не сканируется, подумайте, есть ли у вас Запретить Уст. И если у вас или есть что-то, что запрещается, это не слишком агрессивно.
Распространенным случаем является неправильно поставленная косая черта (/).
В следующем примере выполняется сопоставление с учетом регистра предоставленного вами шаблона.
Агент пользователя: * Запретить: /суши
Любой файл или каталог, который соответствует суши и его оболочке, например /sushi.html
, /sushicats
, /sushicats/wallawalla.html
и /sushi.html?id=123
будут запрещены и не просканированы.
Напротив, косая черта в конце гарантирует, что совпадения существуют только в определенной папке:
Агент пользователя: * Запретить: /суши/
Это будет соответствовать: /sushi/wallwalla.html
, /sushi/milkbuns/fresh.html
и /sushi.html?id=123
.
Другим распространенным случаем является неограниченный подстановочный знак:
User-agent: * Запретить: /*.html
Это будет соответствовать каждому файлу , который заканчивается на . html
, независимо от того, насколько глубоко он спрятан в нескольких каталогах или находится ли он в начале или конце пути HTML: /sushi/milkbuns /fresh.html
и /sushi/milkbuns/fresh.html?id=132
будут совпадать.
Если это не предполагается, поместите $
в конце шаблона, чтобы «закрыть» подстановочный знак:
User-agent: * Запретить: /*.html$
Теперь будут запрещены только файлы, у которых заканчивается в .html
, например /sushi/milkbuns.html
и /sushi/milkbuns/fresh.html
.
Метатеги роботов
Искатель поиска по сайту может понимать директивы роботов из ваших метатегов.
Метатеги помещаются в тегов
вашего веб-сайта:
<голова> голова> <тело> ... тело>
Распространенная проблема — когда люди смешивают две ограничительные директивы: noindex
и nofollow
.
Когда сканер просматривает страницу, он следует и индексирует каждую ссылку на этой странице.
Чтобы этого не произошло, можно добавить nofollow
.
Таким образом, только эта страница будет проиндексирована, ничего, на что она ссылается.
Использование noindex
предотвратит индексирование .
Тем не менее, страница по-прежнему будет отслеживаться, и ее ссылки будут проиндексированы.
Использование обоих гарантирует, что страница не будет проиндексирована и ее ссылки не будут переходить.
Перенаправление на стороне сервера
Часто веб-сайт имеет перенаправление на стороне сервера.
Это укажет одну страницу на другую, используя HTTP-заголовок 301
или 302
.
В большинстве случаев это нормально, так как сканер будет следовать перенаправлению на новое место.
Однако при перенаправлении в расположение, требующее аутентификации, программа-обходчик не сможет продолжить работу.