Поисковые роботы Яндекс и Google
Москва г. Москва, ул. Нобеля 7, п. 56 +7 (800) 700-59-30
Поисковым роботом называется специальная программа какой-либо поисковой системы, которая предназначена для занесения в базу (индексирования) найденных в Интернете сайтов и их страниц. Также используются названия: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.
Принцип работы
Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).
Виды поисковых роботов
Пауки Яндекса:
- Yandex/1.01.001 I — основной бот, занимающийся индексацией,
- Yandex/1.01.001 (P) — индексирует картинки,
- Yandex/1.01.001 (H) — находит зеркала сайтов,
- Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
- YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
- Yandex/1.02.000 (F) — индексирует фавиконы сайтов.
Пауки Google:
- Робот Googlebot — основной робот,
- Googlebot News — сканирует и индексирует новости,
- Google Mobile — индексирует сайты для мобильных устройств,
- Googlebot Images — ищет и индексирует изображения,
- Googlebot Video — индексирует видео,
- Google AdsBot — проверяет качество целевой страницы,
- Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.
Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.
wiki.rookee.ru
Поисковые роботы Google и Яндекса
Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в удобную табличку.
Кто такие поисковые роботы
Использование имен пауков в robots.txt
Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.
Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.
Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.
User-agent: Googlebot Allow: /
User-agent: Googlebot Allow: / |
Выше приведен пример обращения к основному поисковому роботу Google.
Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.
Поисковые роботы Google
User-agent | |
---|---|
Googlebot | Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов |
Mediapartners-Google | Робот рекламной сети AdSense |
APIs-Google | Агент пользователя APIs-Google |
AdsBot-Google | Проверяет качество рекламы на веб-страницах, предназначенных для ПК |
AdsBot-Google-Mobile | Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств |
Googlebot-Image (Googlebot) | Индексирует изображения на страницах сайта |
Googlebot-News (Googlebot) | Ищет страницы для добавления в Google Новости |
Googlebot-Video (Googlebot) | Индексирует видеоматериалы |
AdsBot-Google-Mobile-Apps | Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot |
Поисковые роботы Яндекс
User-agent | Функции |
---|---|
Yandex | При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса |
YandexBot | Основной индексирующий робот |
YandexDirect | Скачивает информацию о контенте сайтов-партнеров РСЯ |
YandexImages | Индексирует изображения сайтов |
YandexMetrika | Робот Яндекс.Метрики |
YandexMobileBot | Скачивает документы для анализа на наличие верстки под мобильные устройства |
YandexMedia | Робот, индексирующий мультимедийные данные |
YandexNews | Индексатор Яндекс.Новостей |
YandexPagechecker | Валидатор микроразметки |
YandexMarket | Робот Яндекс.Маркета; |
YandexCalenda | Робот Яндекс.Календаря |
YandexDirectDyn | Генерирует динамические баннеры (Директ) |
YaDirectFetcher | Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ) |
YandexAccessibilityBot | Cкачивает страницы для проверки их доступности пользователям |
YandexScreenshotBot | Делает снимок (скриншот) страницы |
YandexVideoParser | Паук сервиса Яндекс.Видео |
YandexSearchShop | Скачивает YML-файлы каталогов товаров |
YandexOntoDBAPI | Робот объектного ответа, скачивающий динамические данные |
Другие популярные поисковые боты
User-agent | Функции |
---|---|
Baiduspider | Спайдер китайского поисковика Baidu |
Cliqzbot | Робот анонимной поисковой системы Cliqz |
AhrefsBot | Поисковый бот сервиса Ahrefs (ссылочный анализ) |
Genieo | Робот сервиса Genieo |
Bingbot | Краулер поисковой системы Bing |
Slurp | Краулер поисковой системы Yahoo |
DuckDuckBot | Веб-краулер ПС DuckDuckGo |
facebot | Робот Facebook для веб-краулинга |
WebAlta (WebAlta Crawler/2.0) | Поисковый краулер ПС WebAlta |
BomboraBot | Сканирует страницы, задействованные в проекте Bombora |
CCBot | Краулер на основе Nutch, который использует проект Apache Hadoop |
MSNBot | Бот ПС MSN |
Mail.Ru | Краулер поисковой системы Mail.Ru |
ia_archiver | Скраппит данные для сервиса Alexa |
Teoma | Бот сервиса Ask |
Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.
sky-fi.info
Роботы поисковых систем | Мастер-классы SEOnews
1. Вступление. Что такое робот?
2. Робот как часть поисковой системы
3. Порядок индексирования страницы роботом
4. Типы роботов
5. Управление роботом поисковой системы
6. Заключение
1. Вступление. Что такое робот?
Роботы поисковых систем – это неутомимые труженики Интернета, постоянно просматривающие сотни тысяч сайтов и гигабайты текста в поисках самой свежей и интересной информации.
Что же собой представляет робот? Если сказать просто, это небольшая программа, просматривающая страницы сайта и собирающая некоторую информацию, которую впоследствии передает в базу поисковой системы. Задачи роботов довольно разнообразны, но в общем случае – это индексация содержимого интернет-страничек.
2. Робот как часть поисковой системы
В общем случае поисковая система выполняет две задачи: индексирование и поиск. Процесс индексирования заключается в получении и переработке страниц интернет-сайтов и последующем ее хранении. При этом индекс (базу) поисковой системы стараются устроить таким образом, чтобы процесс поиска был как можно более быстрым и эффективным.
Например, индекс поисковой системы Яндекс основывается на инвертированных файлах, т.е. текст любого документа хранится в виде упорядоченного списка всех встречающихся в документе слов с указанием позиции слова. При этом адрес позиции делают обычно относительным. Далее файл сжимается, но не очень сильно, чтобы не требовалось в последующем много затрат процессорного времени на распаковку файла.
За индексирование в поисковой системе отвечает робот, основным компонентом которого является модуль скачивания. Модуль скачивания обращается по протоколу HTTP к серверам, на которых хранятся странички, и получает в ответ тело странички, при этом ему все равно, каким образом она страница была сформирована сервером, статическая она или динамическая, имеет ли расширение .htm или .php.
Модуль скачивания подчиняется указаниям, прописанным в файле robots.txt , который лежит в корневой папке сервера. В robots.txt указывается, какие страницы запрещены к индексации роботом.
Для уменьшения трафика модуль скачивания не загружает страницы, которые присутствуют в спам-листе робота. Обычно, это сайты, наказанные за нарушение правил поисковых систем, за попытку влияния на алгоритмы ранжирования.
Кроме модуля скачивания, осуществляющего предварительную фильтрацию, в роботе присутствует модуль отслеживания дубликатов, который отбрасывает повторяющиеся документы.
Также в роботе есть модуль, который определяет кодировку сайта и язык. Например, Яндекс обычно индексирует только русскоязычные сайты.
После обработки документа всеми вышеперечисленными модулями робота, документ анализируется html-парсером, который оставляет только самое нужное и весомое для поиска: текст, оформление, ссылки и адреса. Все это при поиске будет влиять на ранжирование странички.
После обработки парсером происходит индексирование документа. При этом используются алгоритмы морфологического анализа. В конце концов, документ инвертируется и добавляется к основному индексу.
3. Порядок индексирования страницы роботом
Робот поисковой системы индексирует новые сайты, находя их по ссылкам с других страниц Интернета. Однако самый быстрый путь к индексации сайта поисковой системой – это самостоятельно сообщить ей, что в Интернете появился новый ресурс.
Для Google это страница http://www.google.ru/addurl/?continue=/addurl, для Рамблера — http://www.rambler.ru/doc/add_site.shtml. Для Яндекса это можно сделать на странице http://webmaster.yandex.ru/.
После ввода адреса сайта, специальный робот проверит, возможна ли индексация сайта, нет ли технических препятствий к этому.
Через некоторое время (обычно через один-два дня) страницу посетит основной индексирующий робот, который и соберет информацию для поисковой системы.
Сначала робот запрашивает на сайте файл robots.txt, на основании данных которого будет происходить дальнейшая навигация. Если страница не запрещена к индексации (о том, как управлять индексацией – чуть позже), то она посещается роботом.
При обращении к странице робот формирует http-заголовок, идентифицируя себя как User-Agent: Yandex/1.01.001 (compatible; Win16; I) (или по-другому, в зависимости от типа робота), иногда указывает свой ip-адрес.
Как и обычный браузер, робот может запросить дату последнего изменения страницы с помощью заголовка «if-modified-since» и на основе отдаваемого сервером «last-modified» сделать вывод о том, изменилась ли страница с момента последнего захода. Если нет – то повторная индексация не требуется. Однако сегодня большинство страниц – динамические и формируются сервером «на лету». Такие страницы имеют значение «last-modified» равное дате обращения к этой странице. Получается, что за несколько недель текст страницы может не измениться, а по значению «last-modified» получается, что страница обновлена. По этой причине многие роботы сегодня игнорируют отдаваемый сервером заголовок «last-modified» и определяют сами – изменилась страница или нет.
При обращении к конкретной странице робот определяет кодировку документа, анализируя мета-тег < meta http-equiv=»Content-Type» content=»text/html; charset=windows-1251″> или при его отсутствии – определяет самостоятельно.
Для htm-документов робот анализирует не только текстовое содержание, но и теги html, на основе которых в дальнейшем будет оцениваться релевантность страницы. Но если теги html робот «понимает», то java-скрипты – нет. Поэтому не рекомендуется использовать скрипты в значимых элементах сайта: например, красивое выпадающее меню, написанное на java-script, может негативно сказаться на индексации страниц, на которые ведут ссылки из меню, так как такие ссылки робот может и пропустить.
Также не рекомендуется использовать различные «события», указываемые как параметры тега при простановке ссылок.
Существует еще один тег, который специально запрещает индексирование текста, расположенного в нем — …. Однако, данный тег воспринимается только роботом поисковой системы Яндекс.
4. Типы роботов
Каждая поисковая система имеет своего робота, который при посещении страниц представляется определенным образом. Для того чтобы узнать на какую страницу вашего сайта какой зашел робот, нужно проанализировать логи сайта, которые автоматически пишутся сервером apache. Например, что нам может сказать вот такая строчка в log-файле:
213.180.216.4 — — [05/Jun/2006:21:26:52 +0400] «GET /contacts.htm HTTP/1.1» 200 6762 «-» «Yandex/1.01.001 (compatible; Win16; I)»
Эта запись означает, что с ip-адреса 213.180.216.4 пятого июня 2006 года в 21:26:52 на страницу «контакты» заходил робот Яндекса, обратившись по протоколу HTTP 1.1.
C помощью различных сервисов (таких как www.nic.ru/whois) можно узнать, действительно ли это заходил робот поисковой системы, а не пользователь с какого-либо сервиса, например с http://seolab.ru/add/header.htm. В нашем случае страницу действительно посещал робот Яндекса:
netname: YANDEX-216
descr: Yandex search engine
А теперь рассмотрим подробнее роботов поисковых систем.
Яндекс
Поисковая система Яндекс имеет разнообразных роботов, специализирующихся на различных задачах.
- Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот Яндекса, собирающий информацию со страниц сайтов.
- Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны при поиске в картинках.
- Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
- Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL» и определяющий доступность страницы для индексации.
- Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
- YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
- Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий иконки сайтов (favicons), которые показываются при просмотре сайта в левом углу заголовка окна браузера.
Кроме роботов у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.
- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.
Рамблер
Поисковая система Рамблер имеет только одного робота, который представляется как «StackRambler/2.0 (MSIE incompatible)». Ip-адрес робота может лежать в пределах интервала 81.19.64.0 — 81.19.66.255
Например:
81.19.66.8 — — [18/Jun/2006:11:19:59 +0400] «GET /robots.txt HTTP/1.0» 200 55 «-» «StackRambler/2.0 (MSIE incompatible)»
Робот поисковой системы Google представляется как «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» и может ходить с ip-адресов 66.249.64.0 — 66.249.72.225
Например:
66.249.72.113 — — [18/Jun/2006:13:13:55 +0400] «GET /robots.txt HTTP/1.1» 200 55 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
5. Управление роботом поисковой системы
Управление роботом поисковой системы ограничено и заключается в основном в установлении запретом на индексацию некоторых страниц сайта. На само расписание робота, на частоту его посещения можно лишь оказывать косвенное влияние.
Частота посещения страниц роботом
Обычно робот посещает страницу сайта исходя из того, как часто изменяется содержание этой страницы. На часто обновляемые страницы робот может ходить каждый день и даже чаще. Например, если это страница новостного сайта. Когда же страница изменяется нечасто, то робот посещает ее один-два раза в неделю. Те страницы, содержимое которых не меняется, все равно посещаются роботом, однако очень редко, не более трех раз в месяц.
При этом за один заход робот запрашивает не более 20-30 страничек с сайта. Это связано с тем, что роботы поисковых систем стараются не загружать сервер своими запросами. На сайт с большим количеством страниц робот ходит часто и каждый раз берет только небольшую «порцию» страниц.
Раньше, для управления частотой посещения роботом страницы веб-мастера использовали тег META NAME=»Revizit—after«.
Например, запись
META NAME=»Revizit-after» CONTENT=»2 days»
означала, что робот должен посещать страницу раз в два дня.
Однако сейчас использование тега не оказывает никакого влияния на частоту посещения страницы роботом, робот сам определяет частоту обновления страницы и на основе этого строит свое расписание. (см. эксперимент).
Запрет индексации
Запрет для индексации в отношении определенных страниц можно реализовать двумя способами: с помощью robots.txt или тега < meta name=»ROBOTS»>.
Для запрета индексации с помощью robots.txt требуется в поле user-agent указать имя робота и после disallow прописать конкретные страницы, которые требуется закрыть от индексации (подробнее см. мастер-класс про правильное составление файла robots.txt). Например, для запрета индексации всего сайта поисковой системой Google:
User-agent: Googlebot
Disallow: /
В случае использования мета-тега инструкции по индексации записываются в поле content. Возможны следующие инструкции:
- NOINDEX — запрещает индексирование документа;
- NOFOLLOW — запрещает проход по ссылкам, имеющимся в документе;
- INDEX — разрешает индексирование документа;
- FOLLOW — разрешает проход по ссылкам.
- ALL — равносильно INDEX, FOLLOW
- NONE — равносильно NOINDEX, NOFOLLOW
Значение по умолчанию: < meta name=»Robots» content=»INDEX, FOLLOW»>.
Например, чтобы запретить индексирование страницы роботу поисковой системы Google требуется написать следующее:
< meta name=»googlebot» content=»noindex, nofollow»>
6. Заключение
Робот – это один из основных элементов любой поисковой системы. Он выполняет очень важные функции, связанные с индексацией сайтов м/p>
www.seonews.ru
Поисковые роботы — как они работают и что делают
Роботы поисковой системы, иногда их называют «пауки» или «кроулеры» (crawler) — это программные модули, занимающиеся поиском web-страниц. Как они работают? Что же они делают в действительности? Почему они важны?
Учитывая весь шум вокруг поисковой оптимизации и индексных баз данных поисковиков, вы, наверное думаете, что роботы должно быть великие и могущественные существа. Неправда. Роботы поисковика обладают лишь базовыми функциями, похожими на те, которыми обладали одни из первых броузеров, в отношении того, какую информацию они могут распознать на сайте. Как и ранние броузеры, роботы попросту не могут делать определенные вещи. Роботы не понимают фреймов, Flash анимаций, изображений или JavaScript. Они не могут зайти в разделы, защищенные паролем и не могут нажимать на все те кнопочки, которые есть на сайте. Они могут «заткнуться» в процессе индексирования динамических адресов URL и работать очень медленно, вплоть до остановки и безсилием над JavaScript-навигацией.
Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.
Когда, зайдя на страницу «Submit a URL», вы регистрируете очередную web-страницу в поисковике — в очередь для просмотра сайтов роботом добавляется новый URL. Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.
Прийдя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.
Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.
«Остроумность» в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика. Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.
Вы можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google’s «Googlebot». Другие более скрытые, как, например, Inktomi’s «Slurp». Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать; некоторые из них могут даже оказаться броузерами, которыми управляют люди.
Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.
Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде вашей страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.
После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель существляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.
Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.
Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть безсилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом. В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.
Многие поисковые роботы не могут быть идентифицированы, когда вы просматриваете логи. Они могут посещать вас, но логи утверждают, что кто-то использует Microsoft броузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).
В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.
Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего web-сайта.
Собственно, роботы не используются поисковиками лишь для вышеизложенного. Существуют роботы, которые проверяют баз данных на наличие нового содержания, навещают старое содержимое базы, проверяют, не изменились ли ссылки, загружают целые сайты для просмотра и так далее.
По этой причине, чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.
www.internet-technologies.ru
что это, виды, управление, проверка посещений сайта роботами
Краулер (поисковый бот, робот, паук) – это неотъемлемая для поисковой системы программа, отвечающая за поиск сайтов и сканирование их содержимого путем перехода по страницам и ссылкам для занесения собранной информации в базу данных поисковика.
Зачем нужны поисковые пауки?
Допустим, есть пользователь Иван Иванов, ежедневно посещающий какой-нибудь популярный книжный онлайн-ресурс, и этот ресурс регулярно пополняется новыми произведениями. Переходя на сайт, Иван осуществляет следующую последовательность действий:
- Заходит на главную страницу.
- Переходит в раздел «Новые книги».
- Просматривает список с недавно добавленными материалами.
- Открывает ссылки с заинтересовавшими его заголовками.
- Ознакомляется с аннотациями и скачивает интересующие его файлы.
Чтобы найти подходящий материал, Иванову пришлось потратить около 10 минут. Если каждый день уделять 10 минут на поиск нужной книги, в месяц на этой уйдет в общем 5 часов. И это касается только одного сайта.
Во избежание таких временных затрат нужно использовать программу, в автоматическом режиме занимающуюся поиском новинок.
Без роботов ни один поисковик не будет эффективным, вне зависимости от того, Google это или новая поисковая система. И чтобы не делать, как Иван, они используют роботов для «обхода» сайтов, отыскивающих для поисковых систем новую информацию, которую они смогут предложить пользователям. И чем лучше сканирует краулер, тем актуальнее материалы в выдаче.
Основные боты выполняют следующие функции:
- Собирают новый или обновленный контент с веб-ресурсов. Сканированием свежих публикаций и ранее размещенных статей занимаются пауки первого порядка.
- Идентификация зеркал. Краулер отыскивает сайты, содержащие идентичный контент, но с разными доменами. Подобные боты имеет Яндекс.
- Сканирование графических файлов. Для поиска графики может быть привлечен отдельный робот.
И много других различных краулеров, которые имеют свое предназначение, о которых мы поговорим ниже.
Виды краулеров
У каждого поисковика есть набор собственных веб-пауков, выполняющих различные функции. Поговорим о ботах двух популярнейших поисковых машин.
Роботы Яндекса
- YandexBot – основной краулер, занимающийся индексацией.
- YandexImages – вносит в индекс изображения ресурсов.
- YandexMobileBot – собирает страницы для их анализа и определения адаптации для смартфонов.
- YandexDirect – сканирует данные о материалах ресурсов-партнером РСЯ.
- YandexMetrika – поисковый паук сервиса Яндекс.Метрика.
- YandexMarket – бот Яндекс.Маркета.
- YandexCalenda – краулер Яндекс.Календаря.
webmasterie.ru
Поисковые роботы, список роботов поисковых систем Яндекс, Google, Rambler, Mail и других
Поисковый робот (бот, паук, spider, crawler) — это специальная программа поисковика, предназначенная для сканирования сайтов в сети Интернет.
Многие не знают, что сканирующие боты просто собирают и сохраняют информацию. Они не занимаются ее обработкой. Это делают другие программы.
Если у вас есть желание посмотреть на сайт глазами поискового робота, то можно это сделать через панель вебмастера.
Посмотреть как Google можно через панель вебмастера. Там нужно добавить свой сайт и потом можно будет посмотреть на странице:
https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru
Посмотреть как Яндекс можно через сохраненную копию страницы. Для этого находим нужную страницу в поиске Яндекса, жмем «сохраненная копия» и дальше «посмотреть текстовую версию».
Ниже приведу список поисковых роботов, которые ходят по нашим с вами сайтам. Одни из них индексируют сайты, другие следят за контекстной рекламой. Есть специализированные роботы, которые занимаются определенными узкими задачами. Например, индексируют картинки или новости.
Зная «в лицо» робота, можно запретить или разрешить ему ползать по сайту, тем самым можно снизить нагрузку на сервер. Ну или защитить свою информацию от попадания в сеть.
Поисковые роботы Яндекса
У поисковой системы Яндекс десятка полтора известных нам поисковых роботов. Список ботов, который мне удалось раскопать, в том числе и из официального хелпа, ниже.
YandexBot — основной индексирующий робот;
YandexMedia — робот, индексирующий мультимедийные данные;
YandexImages — индексатор Яндекс.Картинок;
YandexCatalog — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
YaDirectFetcher — робот Яндекс.Директа;
YandexBlogs — робот поиска по блогам, индексирующий посты и комментарии;
YandexNews — робот Яндекс.Новостей;
YandexWebmaster – приходит придобавлении сайта через форума AddURL;
YandexPagechecker — валидатор микроразметки;
YandexFavicons — индексатор фавиконок
YandexMetrika — робот Яндекс.Метрики;
YandexMarket — робот Яндекс.Маркета;
YandexCalendar — робот Яндекс.Календаря.
Поисковые роботы (боты) Google
Пролистав рекомендации Google для вебмастеров, а так же help, удалось найти упоминание только одного поискового робота. Это основной индексирующий паук Googlebot. Остальные боты были найдены в логах сайтов.
Googlebot — основной индексирующий робот;
Googlebot Nes — индексатор новостей;
Googlebot Images — индексатор картинок;
Googlebot Video — робот для видео данных;
Google Mobile — индексатор мобильного контента;
Google Mobile AdSense — робот мобильного AdSense
Google AdSense — робот AdSense
Google AdsBot – бот проверки качества целевой страницы
Mediapartners-Google — робот AdSense
Роботы других поисковых систем
Так же, в логах своего сайта, вы можете наткнуться на некоторых роботов других поисковиков.
Рамблер — StackRambler
Мэйл.ру — Mail.Ru
Yahoo! — Slurp (или Yahoo! Slurp)
AOL — Slurp
MSN — MSNBot
Live — MSNBot
Ask — Teoma
Alexa — ia_archiver
Lycos — Lycos
Aport — Aport
Вебальта — WebAlta (WebAlta Crawler/2.0)
Кроме ботов поисковиков, по сайтам бегает огромная армия всяких левых пауков. Это различные парсеры, которые собирают информацию с сайтов, как правило, в корыстных целях их создателей.
Одни воруют контент, другие картинки, третьи взламывают сайты и расставляют втихаря ссылки. Если вы заметили, что подобный парсер присосался к вашему сайту — закройте ему доступ всеми возможными способами, в том числе и через файл robots.txt.
Надеюсь, данная информация вам пригодится. Читайте в следующей статье Как добавить сайт на индексацию
Оглавление
Статьи по теме:
Загрузка…seob.info
Как работают поисковые роботы Яндекс и Google
Привет, Друзья! Сегодня Вы узнаете как работают поисковые роботы Яндекс и Google и какую функцию они выполняют в продвижении сайтов. Итак поехали!
Как работают поисковые роботы
Основная работа поисковых систем заключается в том, чтобы выдавать пользователям только качественные сайты с релевантными ответами на запрос. Каждый поисковик имеет целый арсенал поисковых роботов, которые и узнают о сайте, новых ссылках и так далее. Как правило, таких роботов может быть несколько. Поисковый робот практически ничем не отличается от программы, она работает почти так же, как и браузер, который сканирует информацию с сайта. Но только читает он исходный HTML-код страницы.
Каждый поисковый робот выполняет часть своей работы. Один робот просто ищет новые ссылки на странице, другой картинки, и так далее. В русскоязычном интернете таких роботов называют еще краулер или паук.
Поисковый робот исследует все сайты и страницы
Поисковые роботы Яндекса и Google блуждают от сайта к сайту. Они всегда в поисках новой информации, новой страницы, нового сайта. Ведь каждый день в сети публикуется огромное количество свежего материала, сайтов, страниц и, в конце концов, люди редактируют старые страницы. Всё это нужно отслеживать. Поисковый робот не имеет ни выходных, ни праздников, работает круглые сутки. И как только он найдёт новый материал или страницу, то тут же заносит информацию в специальную базу поисковых систем. В целом этот процесс называется индексацией.
Вся эта работа выполняется только для того, чтобы поисковая система смогла максимально точно и релевантно ответить на запрос пользователя.
Как поисковые роботы влияют на продвижение сайта
Каждый сайт, так или иначе, стремиться к тому, чтобы его посещало как можно больше людей. А для этого важно добиться регулярного посещения сайта поисковыми роботами. На сегодняшний день самый качественный и релевантный трафик сайты получают именно от поисковиков. То есть те люди, который пришли на сайт из поисковых систем. Именно поэтому важно, чтобы сайт занимал позиции как можно выше в поисковой выдаче. Поисковые роботы ищут сайты, индексируют их, считывают информацию. После этого запускается следующий этап – ранжирование.
Это действие поисковые системы делают для того, чтобы из миллиона сайтов найти десять WEB-проектов, которые имеют качественный и релевантный ответ на запрос пользователя. Почему только десять? Потому что ТОП 10 поисковой выдачи состоит только из десяти позиций.
Поисковые роботы друзья и веб-мастерам и пользователям
Почему важно посещения сайта поисковыми роботами уже стало ясно, а зачем это пользователю? Всё верно, для того, чтобы пользователю открывались только те сайты, которые ответят на его запрос в полном объёме.
Поисковый робот – очень гибкий инструмент, он способен найти сайт, даже тот, который только создан, а владелец этого сайта ещё не занимался SEO-продвижением. Поэтому этого бота и назвали пауком, он может дотянуть свои лапки и добраться по виртуальной паутине куда угодно.
Можно ли управлять поисковым роботом в своих интересах
Бывают такие случаи, когда некоторые страницы не попали в поиск. В основном это связано с тем, что эта страница ещё не проиндексирована поисковым роботом. Конечно, рано или поздно поисковый робот заметит эту страницу. Но это требует времени, а иногда и достаточно много времени. Но здесь можно помочь поисковому роботу посетить эту страницу быстрее.
Для этого можно разместить свой сайт в специальных каталогах или списках, социальных сетях. В общем, на всех площадках, где поисковый робот просто живёт. Например, в социальных сетях идёт обновление каждую секунду. Попробуйте заявить о своём сайте, и поисковый робот придёт на ваш сайт значительно быстрее.
Из этого вытекает одно, но главное правило. Если вы хотите чтобы боты поисковой системы посещали ваш сайт, им нужно давать новый контент на регулярной основе. В том случае, если они заметит, что контент обновляется, сайт развивается, то станут посещать ваш интернет-проект намного чаще.
Каждый поисковый робот умеет запоминать, как часто у вас меняется контент. Он оценивает не только качество, а временные промежутки. И если материал на сайте обновляется раз в месяц, то и приходить он на сайт будет один раз в месяц.
Таким образом, если сайт будет обновляться раз в неделю, то и поисковый робот будет приходить раз в неделю. Если обновлять сайт каждый день, то и поисковый робот будет посещать сайт каждый день или через день. Есть сайты, которые индексируются уже через несколько минут после обновления. Это социальные сети, новостные агрегаторы, и сайты которые размещают в день несколько статей.
Как дать задание роботу и запретить ему что-либо?
В самом начале мы узнали, что поисковые системы имеют несколько роботов, которые выполняют различные задачи. Кто-то ищет картинки, кто-то ссылки так далее.
Управлять любым роботом можно с помощью специального файла robots.txt. Именно с этого файла робот начинает знакомиться с сайтом. В этом файле можно указать, можно ли роботу индексировать сайт, если да, то какие именно разделы. Все эти инструкции можно создать как для одного, так и для всех роботов.
Обучение продвижению сайтов
Более подробно о премудростях SEO продвижения сайтов в поисковых системах Google и Яндекс, я рассказываю на своих онлайн-уроках по скайпу. Все свои WEB-проекты я вывел на посещаемость более 1000 человек в сутки и получаю с этого отличный пассивный доход. Могу этому научить и Вас, обращайтесь кому интересно!
hozyindachi.ru