Что такое индексация сайта и как проиндексировать свой сайт в поисковых системах?
ГлавнаяСтатьиSEOЧто такое индексация сайта и как проиндексировать свой сайт в поисковых системах?
Самые важные новости сферы интернет-маркетинга
Что такое индексация и как проходит этот процесс в поисковых системах
Любой сайт — будь то корпоративный блог или магазин в e-commerce — проходит несколько важных этапов «рождения». После создания и первичного наполнения контентом, важно проиндексировать сайт поисковыми системами (далее — ПС). Как это происходит:
-
Роботы ПС «видят», что создан новый сайт (или страница).
-
Планируют его «осмотр».
-
Запрашивают контент сайта и анализирует его по ряду параметров.
-
Если все соответствует требованиям — сайт/страница попадает в индекс (своего рода «реестр» ПС), и включается в поисковую выдачу.
Когда пользователь вводит в поисковике запрос, сервис сверяет его с проиндексированными данными и выдает максимально релевантные страницы. Но если при индексации сайта были обнаружены проблемы (ошибки, низкая уникальность текстов, и др.) — ПС могут наложить «санкции» и понизить позиции сайта в выдаче. А то и вовсе исключить его из списка рекомендованных в поиске.
Технологии и алгоритмы индексации сайтов в поисковиках
Технология индексации сайта в Google
Google и Яндекс могут проиндексировать сайты по-разному. У Google действует правило «Mobile-first»: поисковые роботы (краулеры) рассматривают именно мобильную версию сайта и присваивают ей индекс. Поэтому если она проигрывает десктопной, содержит ошибки или не обладает полным функционалом — на нее могут быть наложены ограничения.
На частоту проверки сайта краулерами и на индексацию сайта в Гугл влияет так называемый «краулинговый бюджет»: чем он больше — тем чаще и быстрее проверяют сайт.
Считается, что возраст сайта и частота обновления контента положительно влияют на размер «краулингового бюджета».Технология индексации сайта в Яндекс
Яндекс принимает за основную десктопную версию сайта, проверяет и индексирует именно ее. Краулингового бюджета в этой ПС нет, показатели «доверия» к сайту или его цитируемость другими источниками не имеют подтвержденного значения. Приоритет отдается сайтам с более высокой посещаемостью и большим количеством страниц. При наполнении сайта контентом стоит помнить, что Яндекс не проверяет документы размером более 10 Мб.
Как проверить индексацию сайта?
Существует несколько способов проверить индексацию страниц вашего сайта:
-
С помощью плагинов проверки (SEO Magic, RDS bar и др.). Их преимущество — не нужно заходить каждый раз в ПС и вводить запрос, они работают в автоматическом режиме.
-
Через специальные сайты-сервисы проверок: Netpeak Spider, Screaming Frog Seo Spider, Se Ranking, arsenkin. ru, serphunt.ru, raskruty.ru и др.
Факторы индексирования и их влияние на поисковые системы
На индексирование страниц и контента вашего сайта влияют несколько факторов:
-
Файл robots.txt. В нем содержатся «подсказки» для краулеров: какие страницы на сайте можно индексировать, а какие — нет. Влияние на индексацию этого файла зависит от типа ПС, но основные — Google и Яндекс, его все же учитывают.
-
Метатег <meta name=“robots” содержит (и при желании — позволяет настроить) команды для поисковых роботов, указывая им как лучше проиндексировать страницы.
-
В серверном программном обеспечении сайта можно добавить в заголовки X-Robots-Tag HTTP-ответы, содержащие настройки, указанные в файлах .htaccess и httpd.conf. Прописанные в них команды будут выполняться всеми краулерами.
-
Тег <noindex> запрещает индексировать определенный контент — например, текст, при помощи пары тегов <noindex>. ..</noindex> (работает только для поисковой системы Яндекс).
-
Вывод контента Ajax. Если версия, отображаемая для пользователей, отличается от того, что находится в сохраненной копии, при этом в текстовой версии или коде сохраненной копии отсутствует контент, то это первый признак, что контент страницы может не индексироваться роботами ПС.
Что делать, если сайт не индексируется?
Если ваш интернет-сайт не индексируется продолжительное время — возможно, существуют проблемы с оптимизацией и стоит проверить некоторые аспекты:
1) Не закрыт ли сайт для индексации через:
- файл Robots.txt,
- метатег <meta name=“robots”,
- в файлах .htaccess и httpd.conf.,
- X-robots-tag.
2) Если в указанных местах доступ не закрыт — стоит проверить, нет ли ошибок в теге rel canonical.
3) Проблемы могут возникать и на хостинге (например, слишком долгое время ответа сервера, или сервер дает неверный ответ на запрос ПС).
4) На сайте содержится неуникальный или контент низкого качества.
И только после проверки всех этих факторов можно искать причины в неверной работе самих ПС. Редко, но иногда сбои происходят именно на стороне поисковиков, но такая информация, как правило, быстро становится общедоступной.
Как ускорить индексацию сайта
Что можно предпринять для более быстрой индексации сайта поисковыми системами? Способов много, перечислим самые очевидные и действенные.
-
Установите автоматическое обновление карты сайта (sitemap). Особенно, если вам нужно быстро проиндексировать страницу в Google — эта ПС обращается к карте в первую очередь, в отличие от Яндекса, которая вначале «смотрит» на файл robots.txt. Все новые страницы должны тут же заноситься в карту сайта.
-
Тщательно проверьте страницы и размещенный контент. Сайт не должен содержать дубли страниц и контент с низким процентом уникальности. Эти аспекты «воруют» краулинговый бюджет, в результате чего роботы ПС могут просто не добраться до новых страниц, которым нужно индексироваться.
-
Проверьте, нет ли на сайте битых ссылок и каково количество внутренних редиректов. От первых нужно избавиться вовсе, количество вторых — свести к минимуму. Каждый из них также расходует бюджет поисковых роботов.
-
Еще раз проверьте, не закрыты ли добавленные страницы для индексации через robots.txt. Это важно для их дальнейшего продвижения.
-
Проверьте скорость загрузки страниц сайта при помощи PageSpeed Insight. И время ответа сервера, и скорость загрузки отдельных страниц должны быть минимальными (сервис сам измеряет эти показатели и выдаст вам рекомендации по устранению технических недостатков).
-
Проверьте качество внутренней перелинковки. Краулеры «путешествуют» по внутренним ссылкам так же, как и посетители, автоматически ускоряя скорость индексации страниц.
-
Выводите «превью» свежего контента на главную страницу — будь то текстовый материал или карточка с новым товаром. Так ваш контент окажется «на поверхности» сайта и будет быстрее замечен краулерами.
-
Следите за регулярностью обновления контента на сайте. Это относится не только к вновь публикуемым статьям, но и обновлению/корректировке старых.
Статью подготовил Сергей Лысенко, ведущий спикер Webcom Academy. |
Поделиться с друзьями:
Самое свежее за последнюю неделю
Что такое индексация и как проиндексировать сайт?
П
родолжаем знакомить вас с нашей азбукой интернет-маркетинга. И сегодняшняя страница нашего букваря начинается на букву И — индексация.
Из этого материала вы узнаете:
- Что такое индексация
- Как внести сайт в базу
- Как ускорить индексацию
- Приведем пример удачной индексации
Что такое индексация?
Мы уже рассказывали вам о поисковой выдаче. Если совсем кратко, это ответы на запросы пользователей, которые они вбивают в поисковик. Забиваешь ты “купить слона” — получи сайты, которые предлагают слоновом оптом и в розницу. Пластиковые окна или девочек по вызову по таким запросам Яндекс или Гугл не покажет. А теперь внимание, вопрос: каждый ли сайт попадает в поисковую выдачу? Нет, не каждый. Как минимум надо, чтобы поисковики знали о существовании этого сайта и о контенте, который на нем размещен. Ведь как можно показывать то, о чем никто не знает? Для этого есть базы данных сайтов. Если кратко, то внесение сайта с его содержимым в эту базу и называется индексацией. Как происходит индексация? Робот Яндекса или Гугла действует по своим алгоритмам: ищет сведения о вашем сайте (в эти сведения входят ключевые статьи, тексты, фото и т. д.- словом, весь контент). Он как рентген, просвечивает каждую страницу сайта, анализирует ее, сканирует и добавляет ваш сайт в базу данных. Теперь он будет отображаться в поисковой выдаче и показываться в ответ на запросы пользователей. А уж на каких позициях — в лидерах или аутсайдерах — зависит от контента, которым он наполнен. Разумеется, индексация сайта просто необходима. Когда ваш сайт начинают видеть поисковики — на него приходят посетители и растет трафик.
Как внести сайт в базу?
Допустим, создали вы сайт Самыйлучшийсайт.рф. Наполнили его, понятное дело, лучшим контентом и с нетерпением ждете, когда он выйдет в топ. Для того чтобы сайт и контент проиндексировался и был внесен в базу, можно использовать два способа.
- Дождаться самостоятельной индексации. Рано или поздно роботы найдут ваш сайт — для этого нужно лишь оставить на него активные ссылки с других ресурсов. Считается, что чем больше ссылок — тем быстрее будет индексация.
- Добавить сайт вручную, заполнив специальную форму в поисковике. Там нужно указать ссылку на сайт и краткую информацию о нем. В Яндексе, например, это делается в сервисе Яндекс Вебмастер на странице Сообщить о новом сайте.
Работа в сервисе Яндекс Вебмастер
Там же в Вебмастере можно потом следить за статистикой запросов, которые приводят пользователей на ваш сайт. В Google тоже все просто — зарегистрировать сайт можно по ссылке Центр веб-мастеров Google. Как быстро происходит индексация? Точные цифры сложно сказать — это уж как повезет. Но одно мы знаем точно: Яндекс индексирует медленнее, чем Гугл. Были случаи, когда индексации в нем ждали по нескольку недель.
Как ускорить индексацию?
Алгоритмы поисковиков — штука непредсказуемая, и, как уже говорилось, точного рецепта нет. Можем посоветовать проверенные способы (по сути те же самые, которые влияют на продвижение сайта в поисковой выдаче)
- Уникальный контент, который так любят поисковики. Один момент: если вы выложили на сайт или в блог статью и она еще не проиндексировалась, любой теоретически может утащить ее и разместить у себя. Если на другом сайте статья проиндексируется раньше — вы в пролете. Ваша статья будет считаться неуникальной, а конкурент останется в шоколаде.
- Понятная структура сайта. Соблюдайте правило трех кликов: на каждую страницу с главной можно попасть не больше чем в три клика. Меньше — хорошо, больше — лучше не надо! Так вы облегчите задачу поисковикам, которые будут индексировать не только главную, но и другие страницы.
- Перелинковка с внутренними страницами — полезно и для посетителей, и для робота.
- Трансляция постов в RSS-каталоги. Все ваши посты будут дублироваться в RSS-каталоги, в которые добавляются RSS-ленты. Это ленты для подписки на обновления блогов или сайтов, чтобы вы получали все самое свежее на свою почту. С их помощью поисковик быстрее найдет ваши новые статьи и проиндексирует.
Приведем пример удачной индексации
Неделю назад на одном из сайтов появилась статья про ружье ВПО-213. Информации об этом ружье в Сети практически не было — оно еще не появилось в продаже. Была только короткая презентация в видео на Ютубе. Соответственно, текст был полностью уникальным и чуть ли не единственным в интернете на эту тему. В районе полуночи текст был опубликован на сайте (даже не на главной странице!) и в течение короткого времени проиндексирован. В половине десятого утра следующего дня статья была на третьем месте в поисковой выдаче Яндекса. В 9.50 она стала первой и держит эти позиции до сих пор.
Пример удачной индексации
Читайте нашу азбуку интернет-маркетинга, делитесь важным с друзьями!
Поделитесь, пожалуйста, с друзьями!
Что такое Googlebot и как он работает?
Патрик Стокс
Патрик Стокс — консультант по продуктам, специалист по технической оптимизации и представитель бренда Ahrefs. Он является организатором Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup, Findability Conference и модератором /r/TechSEO.
Показывает, сколько разных веб-сайтов ссылаются на этот фрагмент контента. Как правило, чем больше веб-сайтов ссылаются на вас, тем выше ваш рейтинг в Google.
Показывает приблизительный месячный поисковый трафик к этой статье по данным Ahrefs. Фактический поисковый трафик (по данным Google Analytics) обычно в 3-5 раз больше.
Сколько раз этой статьей поделились в Твиттере.
Поделитесь этой статьей
Получите лучший маркетинговый контент недели
Подписка по электронной почте
Подписка
Содержание
Googlebot — это поисковый робот, используемый Google для сбора необходимой информации и создания доступного для поиска индекса в Интернете. У робота Google есть сканеры для мобильных и настольных компьютеров, а также специализированные сканеры для новостей, изображений и видео.
Есть и другие сканеры, которые Google использует для определенных задач, и каждый сканер идентифицирует себя с помощью отдельной текстовой строки, которая называется «пользовательский агент». Робот Googlebot является вечнозеленым, то есть он видит веб-сайты так же, как пользователи в последнем браузере Chrome.
Робот Googlebot работает на тысячах компьютеров. Они определяют, как быстро и что сканировать на веб-сайтах. Но они замедлят сканирование, чтобы не перегружать веб-сайты.
Давайте посмотрим на их процесс создания индекса сети.
Как робот Googlebot сканирует и индексирует веб-сайты
В прошлом компания Google поделилась несколькими версиями своего конвейера. Ниже самое последнее.
Он снова обрабатывает это и ищет любые изменения на странице или новые ссылки. Контент визуализированных страниц — это то, что хранится и доступно для поиска в индексе Google. Любые новые найденные ссылки возвращаются в корзину URL-адресов для сканирования.
Более подробная информация об этом процессе содержится в нашей статье о том, как работают поисковые системы.
Как управлять роботом Googlebot
Google предлагает несколько способов управления тем, что сканируется и индексируется.
Способы контроля сканирования
- Robots.txt – Этот файл на вашем веб-сайте позволяет вам контролировать, что сканируется.
- Nofollow – Nofollow – это атрибут ссылки или метатег робота, предполагающий, что по ссылке не следует переходить. Это всего лишь подсказка, поэтому ее можно игнорировать.
- Изменить скорость сканирования – Этот инструмент в Google Search Console позволяет замедлить сканирование Google.
Способы контроля индексации
- Удалить свой контент – Если вы удалите страницу, то индексировать будет нечего. Недостатком этого является то, что никто другой не может получить к нему доступ.
- Ограничить доступ к контенту – Google не входит на веб-сайты, поэтому любая защита паролем или аутентификация не позволит ему увидеть контент.
- Noindex – noindex в метатеге robots указывает поисковым системам не индексировать вашу страницу.
- Инструмент для удаления URL – Название этого инструмента от Google немного вводит в заблуждение, так как он работает так, что временно скрывает содержимое. Google по-прежнему будет видеть и сканировать этот контент, но страницы не будут отображаться в результатах поиска.
- Robots.txt (только изображения) – Блокировка Googlebot Image от сканирования означает, что ваши изображения не будут проиндексированы.
Если вы не уверены, какой элемент управления индексацией вам следует использовать, ознакомьтесь с нашей блок-схемой в нашем посте об удалении URL-адресов из поиска Google.
Это действительно робот Google?
Многие инструменты SEO и некоторые вредоносные боты выдают себя за Googlebot. Это может позволить им получить доступ к веб-сайтам, которые пытаются их заблокировать.
Раньше для проверки робота Googlebot нужно было выполнять поиск в DNS. Но недавно Google сделал это еще проще и предоставил список общедоступных IP-адресов, которые вы можете использовать для проверки того, что запросы исходят от Google. Вы можете сравнить это с данными в журналах вашего сервера.
У вас также есть доступ к отчету «Статистика сканирования» в Google Search Console. Если вы перейдете к Настройки > Статистика сканирования , отчет будет содержать много информации о том, как Google сканирует ваш сайт. Вы можете увидеть, какой робот Googlebot сканирует какие файлы и когда он к ним обращался.
Заключительные мысли
Сеть — большое и грязное место. Роботу Google необходимо пройти через все различные настройки, а также время простоя и ограничения, чтобы собрать данные, необходимые Google для работы его поисковой системы.
В завершение забавный факт заключается в том, что Googlebot обычно изображается в виде робота, и его метко называют «Googlebot». Также есть талисман паука по имени Кроули.
Остались вопросы? Дайте мне знать в Твиттере.
Как проиндексировать ваш новый сайт WordPress • Yoast
Когда вы расстилаете красную ковровую дорожку на новом веб-сайте, вы можете ожидать, что посетители начнут охотно приходить на него.
Небольшое примечание, прежде чем мы продолжим. Хотя в краткосрочной перспективе есть некоторые вещи, которые вы можете сделать, чтобы ваш сайт индексировался быстрее, вы не должны забывать о долгосрочной игре. Устойчиво высокий рейтинг веб-сайта во многом зависит от создания замечательного контента. Почему? Потому что поисковые системы хотят найти лучший ответ на запросы своих пользователей. Сайт с лучшим контентом побеждает в гонке за первое место в результатах поиска.
Как работают поисковые системы?
Чтобы понять, как проиндексировать ваш сайт, полезно знать, как работают поисковые системы. Поисковые системы генерируют результаты в три основных этапа: сканирование, индексирование и ранжирование.
Сканирование — это процесс обнаружения, осуществляемый сканерами, ботами или пауками. Компьютерная программа указывает сканерам, какие страницы сканировать и что искать. Когда сканеры попадают на страницу, они собирают информацию и переходят по ссылкам. Что бы они ни нашли, они сообщают об этом серверам поисковых систем. Затем поисковая система пытается понять страницу, чтобы проиндексировать ее. Он просматривает содержимое и все, что находит, помещает в гигантскую базу данных; их «индекс».
Наконец, ранжирование начинается, когда вы ищете что-то в Интернете. Итак, алгоритм поисковой системы просматривает индекс и фильтрует страницы, чтобы найти лучшие. Мы не знаем точной механики алгоритма. Тем не менее, мы знаем, что поисковые системы особенно заинтересованы в высококачественном контенте и удобных для пользователя, актуальных страницах.
Подробнее: Чем занимается Google? »
Сканирование, индексация и ранжирование никогда не прекращаются. По мере появления новых страниц и обновления старых поисковые роботы непрерывно сканируют их, а поисковые системы получают новые и улучшенные способы сбора и отображения результатов.
Итак, как можно ускорить этот процесс и помочь поисковым системам найти вас быстрее? Отличный способ начать — отправить XML-карту сайта в Google Search Console.
Как найти и проиндексировать ваш сайт Google:
- Создайте XML-карту сайта с помощью Yoast SEO
XML-карта сайта — это файл, содержащий информацию о вашем веб-сайте. Проще говоря, это список ваших самых важных страниц. Это полезный инструмент, который помогает Google находить и исследовать ваш сайт. Yoast SEO может помочь вам создать карту сайта. Все, что вам нужно сделать, это включить опцию карты сайта XML, и карта сайта будет сгенерирована автоматически. Это здорово экономит время!
- Настройка учетной записи в Google Search Console
После того, как вы создали карту сайта, вам нужно сообщить об этом Google. Google Search Console — это инструмент, который может помочь вам в этом. Чтобы добавить карту сайта в консоль, вам необходимо создать учетную запись. Yoast SEO также может помочь вам проверить ваш сайт в Google Search Console.
- Добавьте карту сайта в Google Search Console
В Google Search Console вы найдете вкладку XML-карта сайта. Там вы можете добавить созданную вами карту сайта, чтобы Google знал, где ее найти. Если вы обновите контент на своем сайте, ваша XML-карта сайта будет обновлена автоматически.
- И/или отправьте наиболее важные отдельные страницы в Google Search Console
Кроме того, вы также можете попросить Google просканировать отдельные страницы. В Google Search Console вы найдете инструмент проверки URL-адресов, где вы можете попросить Google просканировать или повторно просканировать URL-адрес. Существует квота, поэтому подумайте, какие страницы имеют решающее значение для вашего бизнеса с точки зрения рейтинга, и отправьте их сюда.
Продолжайте читать: SEO для нового веб-сайта: самое первое, что нужно сделать »
Зачем нужна карта сайта в формате XML?
Мы упоминали, что поисковые роботы обнаруживают страницы, перейдя по ссылкам. Когда у вас есть новый веб-сайт, вы можете столкнуться как минимум с двумя проблемами. Во-первых, скорее всего, не так много внешних сайтов, которые указывают на ваш сайт. Во-вторых, у вас, вероятно, все еще мало контента, поэтому ваши внутренние ссылки и структура вашего сайта (пока) не являются звездными. Как без ссылок поисковые роботы могут попасть на ваш сайт?
Одним из способов индексации вашего сайта является создание карты сайта с самого начала и добавление ее в Google Search Console. Однако, поскольку у вас все еще может быть не так много контента, вы должны быть осторожны с тем, что вы включаете в него. Хотя вы можете создавать карты сайта для видео, изображений, категорий и тегов, это не означает, что вы обязательно должны это делать. Например, вы могли уже настроить некоторые категории. Но для каждой категории у вас есть только один пост. В этом случае создание карты сайта для ваших категорий не так полезно, поскольку контент не дает много информации как посетителям, так и поисковым роботам.
Важно отметить, что Google не может сканировать и индексировать все элементы вашей карты сайта. Тем не менее, мы рекомендуем вам создать его, поскольку мы считаем, что вы получите от этого пользу.
Получение индексации вашего сайта за пределами Google
Мы рассказали вам, как отправить карту сайта с помощью Google Search Console. Но это не единственная поисковая система. Итак, как вы можете отправить свою карту сайта в другие поисковые системы? С Yoast SEO это легко. В других поисковых системах также есть инструменты для веб-мастеров, с помощью которых вы можете отправить карту сайта и следить за эффективностью своего сайта. В настоящее время вы используете Yoast SEO, чтобы добавить свой сайт в:
- Инструменты для веб-мастеров Яндекса
- Инструменты для веб-мастеров Bing
- Инструменты для веб-мастеров Badiu
Что дальше?
После того, как вы создали карту сайта и подключили ее к поисковым системам с помощью Yoast SEO, можете ли вы, наконец, сесть, расслабиться и наблюдать за потоком посетителей? Не совсем.