Из чего состоит и как работает поисковая система Яндекс и Google?
Главная / Мастер-классы / Продвижение сайтов / Из чего состоит и как работает поисковая система Яндекс и Google?
В этой статье я опишу основные элементы поисковой системы, покажу, как они связаны, и затрону немного истории возникновения поисковиков. Но вначале разберем, что такое поисковая система и для чего она нужна?
Поисковая система – это специальный сервис для быстрого поиска информации в Интернете. Пользователь задает в поисковик запрос, в котором формулирует, что хочет найти. Поисковая система в ответ выдает результаты поиска – ссылки на страницы сайтов, где может находиться интересующая пользователя информация.
Давайте разберемся, из чего состоит поисковая система и как она работает. Нужно отметить, что принципы действия у любого поисковика схожи: Яндекс, Google и другие поисковики работают по аналогичным алгоритмам, которые отличаются нюансами.
История развития поисковиков: не путайте Wandex и Yandex!
Начнем с истории: первый в мире поисковик в WWW появился в 1993 году, и это был Wandex. Не путайте с Яндексом. После него появились Aliweb, Webcrawler, Lycos, Altavista, Рамблер, Google и только потом Яндекс.
Первым именно российским поисковиком был Рамблер. Сейчас Рамблер все еще существует, но для поиска использует движок Яндекса. На его долю приходится около 1% от всех поисковых запросов.
Самой популярной поисковой системой в России на момент подготовки статьи является Яндекс, который используют для поиска информации около 61% россиян по данным РБК. На втором месте по количеству пользователей в России идет Google – около 26%, но в последнее время процент пользователей Google растет. Обе поисковые системы были запущены в 1997 году, но в Россию Google пришел гораздо позже (официально – в 2006 году).
Перейдем к вопросу, как устроена и как работает поисковая система
Поисковая система состоит из трех основных элементов:
1. Роботы-пауки (агенты, роботы, обходящие все интернет пространство, и сканирующие сайты)
У поисковой системы существует множество роботов-агентов, каждый из них выполняет свою функцию:
- основной работ, сканирующий сайты;
- робот, сканирующий картинки;
- робот, сканирующий видео;
- робот мобильных сервисов;
- быстроробот выполняет функцию сбора свежей информации и новостей для индексации;
- другие роботы.
У каждого робота есть список адресов, которые он должен обойти. Этот список автоматически увеличивается, если робот находит новую ссылку и адрес сайта. Робот проверяет тип найденного документа, кодировку и язык и отправляет эти данные на дальнейшую обработку.
2. Индекс (база документов и дополнительных параметров в обработанном виде)
Индекс – это хранилище поисковой системы, где вся информация находится в обработанном и упорядоченном виде. Например, документы хранятся в очищенном от html-разметки виде, в индексе имеются данные о местоположении различных слов в документе и другая информация. Индекс обновляется постоянно.
В ряде поисковых систем имеются выраженные апдейты. В этом случае полноценное обновление поискового индекса, на основе которого формируются результаты поиска, происходит не постоянно, а через некоторое время. Апдейт – это момент обновления поисковой системы, в который результаты поиска по многим запросам серьезно меняются.
3. Поисковый алгоритм (механизм, который позволяет формировать выдачу)
Когда в поисковую систему поступает запрос, алгоритмы поисковой системы обрабатывают его. В обработанном виде он поступает дальше в систему.
Если запрос популярный, результаты поиска по нему могут кешироваться (сохраняться в поисковой системе) и в дальнейшем при поступлении такого же запроса результаты поиска поднимаются из кеша. Если запрос уникальный, то поисковые алгоритмы на основе имеющихся в них формул формируют ответ на запрос из индекса поисковой системы.
Формула, по которой формируются результаты поиска, может отличаться в зависимости от запроса, его типа (коммерческий, информационный, навигационный и т.д.), географии (формула для региональных запросов может быть проще, чем для московского региона).
Мы рассмотрели упрощенную модель поисковой системы. Реальные поисковые системы намного сложнее и включают в себя механизмы борьбы по спамом, колдунщики и множество других вещей.
Что такое машинное обучение?
Поисковая система Яндекс создает формулы для ранжирования сайтов на основе машинного обучения.
Очень упрощенно данную систему можно представить так:
- В программу машинного обучения загружаются факторы, по которым осуществляется ранжирование документов, и отранжированные результаты поиска по множеству запросов. Программа ищет закономерности между результатами поиска и факторами «хороших» и «плохих» страниц. Найденные закономерности включаются в формулу ранжирования. Например, если на всех «хороших» сайтах фон был синим, а на всех «плохих» – желтым, то программа может заложить в формулу повышение позиций страниц с синим фоном и занижение позиций страниц с желтым фоном.
- Полученные формулы тестируются, и разработчики по определенным параметрам определяют, улучшилось качество поиска по новым формулам или нет.
- Если качество поиска повысилось – формулы загружаются в основной поиск и начинают обрабатывать пользовательские запросы.
Резюме: как работает поисковик?
Как мы видим, даже упрощенная модель работы поисковой системы достаточно сложна и состоит из множества систем. Реальные же поисковые системы намного сложнее, поэтому процесс продвижения сайтов представляется не только сложным, но и крайне интересным.
В данный момент при ранжировании сайтов поисковая система Google учитывает более 200 факторов, а поисковик Яндекс — более 800 факторов. Все они подразделяются на группы: технические, доменные, текстовые, ссылочные, региональные, поведенческие, коммерческие, юзабилити и ряд других.
Читайте также:
- Что такое продвижение сайтов (SEO)?
- Кто такие SEO-специалисты и чем они занимаются?
Как заработать на продвижении сайтов в поисковых системах?
Автор: Илья Жуйков (KadrofID: 37)
Добавлено: 03.08.2015 в 13:54
Рекомендуем
16 способов получения внешних ссылок на сайт
Внешние ссылки по-прежнему остаются одним из важнейших факторов при продвижении сайта.
Продвижение сайта с помощью ссылок: как правильно сделать?
В данной статье рассмотрим, как поисковые системы учитывают внешние ссылки, какие ссылки приносят пользу сайту и как правильно развивать ссылочный …
Темы мастер-классовРазвернуть
- Копирайтинг и рерайтинг
- Продвижение сайтов
- Дизайн и юзабилити
- Контекстная реклама
- Веб-аналитика
- Социальные сети и SMM
- Прочие мастер-классы
Консультации
Почему я не могу разместить свой заказ на бирже, он не нарушает правила
Как разместить портфолио?
Как разместить вакансию?
Верите ли вы что можно заработать онлайн не выходя из дома?
Как устроены поисковые системы
Чтобы успешно продвинуть сайт в топ поисковой выдачи, а также решить другие задачи, связанные с интернет-маркетингом, стоит понимать, как работают ключевые поисковые системы. Для российского digital-маркетинга это, безусловно, «Яндекс» и Google, которыми пользуется подавляющее большинство жителей России и стран СНГ.
Чтобы успешно продвинуть сайт в топ поисковой выдачи, а также решить другие задачи, связанные с интернет-маркетингом, стоит понимать, как работают ключевые поисковые системы. Для российского digital-маркетинга это, безусловно, «Яндекс» и Google, которыми пользуется подавляющее большинство жителей России и стран СНГ.
Поисковая система – это сложный аппаратно-программный комплекс, состоящий из тысяч и даже миллионов серверов, обрабатывающих пользовательские запросы и собирающих данные со всех сайтов сети Интернет, доступных к индексации. Нужно понимать, что компании, которые владеют такими системами, не разглашают информацию об архитектуре, составе и алгоритмах работы своих поисковых комплексов, поскольку это является коммерческой тайной.
Тем не менее общие принципы того, как работают поисковые системы «Яндекс» и «Гугл», известны. В SEO-продвижении сайта применяется как общедоступная информация, так и сведения, полученные экспериментальным путем.
Итак, «Яндекс» и Google устроены примерно по одному принципу, используют схожую архитектуру, логику поиска, алгоритмы ранжирования и состоят из двух составляющих:
- аппаратного обеспечения – дата-центров, объединяющих физические серверы в единую систему, и сетевых коммуникаций;
- программной части, отвечающей за логику работы поисковых систем и подготовку выдачи на запросы пользователей.
О каждом из этих компонентов следует сказать отдельно.
Физический уровень поисковых систем
«Яндекс» и Google используют распределенный принцип защищенного хранения и доступа к информации на базе дата-центров, расположенных по всему миру. Каждый дата-центр содержит в своем составе сотни тысяч (для Google – миллионы) серверов для хранения данных индексации, обработки запросов пользователя и подготовки результатов.
Каждый сервер имеет несколько зеркал, между которыми перераспределяется нагрузка. Так обеспечивается надежное резервирование на случай сбоя или выхода из строя одного из элементов такого массива. Технологии репликации обеспечивают идентичность информации на каждом сервере в режиме реального времени.
Кроме серверного оборудования дата-центры, обслуживающие поисковые системы, оснащены высокоскоростной локальной сетью и несколькими подключениями к Интернету, что обеспечивает их высокую доступность, скорость обработки информации и выдачи результатов пользователю.
Логический уровень работы поисковых систем
«Яндекс» и Google имеют идентичные принципы обработки запросов пользователя и подготовки ответа. В Google имеются некоторые отличия в технологиях, поэтому рассмотрим алгоритм на примере «Яндекса».
- Запрос пользователя, введенный в поисковую строку сайта Yandex.ru, передается в балансировщик нагрузки.
- Балансировщик определяет менее нагруженный кластер сети поисковых машин и передает запрос ему на обработку.
- Далее анализируется орфография, определяется тематическая и региональная принадлежность, запрос классифицируется по типу.
- Затем проверяется наличие похожих запросов, которые обработаны недавно. Кэш ответов на запросы некоторое время хранится для ускорения подготовки результатов. Это позволяет быстрее формировать выдачу по популярным запросам. Популярность таких запросов может быть краткосрочной (чрезвычайные происшествия, события мирового масштаба, рекламные кампании известных брендов и др.) или постоянной, связанной, например, с социальными сетями.
На такие запросы пользователь получает уже готовые результаты.
- Если при проверке оказывается, что в кэше нет готового ответа на запрос, он передается на серверы базового поиска, который выполняется по частям для ускорения процесса. Это обеспечивается тем, что индекс поисковой системы распределен по серверам.
- Ответы от нескольких кластеров базового поиска возвращаются метапоиску, а затем проходят через систему ранжирования, которая по различным критериям выстраивает сформированную выдачу.
Алгоритмы ранжирования оказывают значительное влияние на SEO-трафик, успешность интернет-рекламы, однако владельцы поисковых систем оглашают только общие принципы их работы: качественный контент, полезность информации и т. д. Поэтому СЕО-специалистам приходится искать свои эффективные технологии оптимизации страниц сайта для достижения максимальной отдачи от рекламной кампании.
ЧИТАЙ ТАКЖЕ
Как работает поиск
Контекстная и контекстно-медийная реклама
Основные ограничения для продвижения сайта
(Рейтинг: 4, Голосов: 7) |
У тебя есть нерешенные задачи?
В этом блоге мы делимся знаниями, но если у тебя есть серьезные цели, которые требуют вмешательства настоящих профи, сообщи! Перезвоним, расскажем, решим любые задачи из области digital
Находи клиентов. Быстрее!
Работаем по будням с 9:30 до 18:30. Заявки, отправленные в выходные, обрабатываем в первый рабочий день до 10:30.
Приложи файл или ТЗ
Нажимая кнопку, ты разрешаешь обработку персональных данных и соглашаешься с политикой конфиденциальности.
Работаем по будням с 9:30 до 18:30. Заявки, отправленные в выходные, обрабатываем в первый рабочий день до 10:30.
Нажимая кнопку, ты разрешаешь обработку персональных данных и соглашаешься с политикой конфиденциальности.
наверх
Что такое поисковая система? (и как они работают) – MakerHub
Опубликовано Автор: Yerain Abreu Опубликовано в рубрике Брендинг и маркетинг
Поисковые системы — что это такое? Они просто Google? И, возможно, что еще более важно, как вы появляетесь в Google? Когда кто-то ищет лучшие школы в Нью-Йорке, почему один веб-сайт отображается, а не другой? Это именно то, что мы рассмотрим в этом вводном посте о поисковой системе.
Что такое поисковая система?
Поисковая система — это инструмент, позволяющий быстро находить информацию в Интернете. С учетом сказанного вы можете представить, что Google — единственный поиск, но есть и много других. Вот несколько крупнейших поисковых систем.
Bing
Bing принадлежит Microsoft. Это главный конкурент Google.
Yahoo
Yahoo — одна из старейших поисковых систем.
DuckDuckGo
DuckDuckGo — одна из новейших поисковых систем. Их главная особенность — конфиденциальность.
Яндекс
Яндекс — основная поисковая система России.
Baidu
Baidu — основная поисковая система Китая.
Дело в том, что Google не единственная поисковая система. Ниже приведено изображение доли рынка для поисковой системы.
Google раньше доминировал на 94% рынка, теперь их 92. Таким образом, вы можете видеть, что конкуренты поднимаются вверх по рейтингу.
Независимо от того, какая поисковая система в настоящее время находится на вершине, Надлежащая практика SEO работает для каждой поисковой системы.
Результаты динамические
Вы когда-нибудь замечали, что когда вы вводите разные вопросы в Google, вся страница может изменить макет? Это потому, что результаты динамичны. Ниже у нас есть пример двух поисков: слева — воздуходувки, а справа — Клинт Иствуд.
На странице поисковой выдачи воздуходувки для листьев мы видим несколько рекламных объявлений. И здесь мы видим то, что называется текстовым модулем «адам люди также спросили» и органическим листингом.
Но если мы посмотрим на поисковую выдачу Клинта Иствуда (человека), то получим совершенно другой результат.
Поисковые системы умны. Они знают, что вы ожидаете увидеть. Они знают, что вы ожидаете увидеть продукты, если ищете линейку продуктов. Точно так же, если вы наберете «еда рядом со мной», они не будут показывать вам статьи о еде рядом с вами. Они покажут вам карту, чтобы помочь вам найти еду поблизости. Дело в том, что разные запросы вызывают разные результаты.
Как работают поисковые системы?
Хорошо, но как работают поисковые системы? Поисковые системы работают в три основных этапа. Сканирование, индексирование и ранжирование
Сканирование
Поисковые системы отправляют в Интернет небольшие фрагменты исполняемого кода, которые мы обычно называем пауками (понятно? пауков в сети ). Эти пауки переходят по каждой ссылке на странице, затем по каждой ссылке на следующей странице, и так далее, и тому подобное.
Индексирование
Затем он индексирует эту информацию. Думайте об этом как о переносе этих данных на материнский корабль; домой. Он хранил эти данные в репозитории, называемом index.
Ранжирование
Наконец, он использует свой алгоритм для организации этих данных и ранжирования страниц на основе заданного запроса.
Заключение
Так работает поисковая система. Конечно, это еще не все, но это только основы, и для большинства маркетологов и владельцев бизнеса это все, что вам действительно нужно знать. Если вам нужна дополнительная информация о SEO, напишите MakerHub. Мы хотели бы услышать ваши мысли.
Барабан | Почему SEO-индустрию волнует утечка информации из Яндекса?
Лаура Радд из No Brainer рассказывает об утечке кода Яндекса и о том, что это значит для SEO, и стоит ли об этом заботиться.
Захватывающие новости недавно вошли в сферу SEO (долгожданный перерыв от ChatGPT). Утечка исходного кода из Яндекса — предположительно, сделанная недовольным бывшим сотрудником — включала детали тысяч факторов ранжирования поисковой системы.
Вы, наверное, слышали о Яндексе, это четвертая по величине поисковая система в мире по доле рынка. Вчера произошла утечка проприетарного исходного кода Яндекса.
Самая интересная часть для SEO-сообщества: список всех 1922 факторов ранжирования, используемых в алгоритме поиска Почему индустрия SEO заботится?
Яндекс — крупная технологическая компания, хотя и не очень известная (по крайней мере, за пределами SEO-индустрии). Как поисковая система, в настоящее время на них приходится примерно 0,1% поисковых запросов в Великобритании по сравнению с 9-м Google.
3%. В России, где был основан Яндекс, больше похоже на 54%.
Причина, по которой это представляет интерес для тех, кто работает в области SEO во всем мире, заключается в том, что факторы ранжирования (или сигналы) являются тщательно охраняемым секретом для поисковых систем, поэтому стоит знать о том, как они могут работать.
Реклама
По статистике, Яндекс и Google имеют около 70% сходства в результатах поиска, и что это поисковая платформа, созданная людьми, которые раньше работали в Google, которые, возможно, даже включили собственный код Google в поиск Яндекса. двигатель (например, у Яндекса есть фактор под названием PageRank, который также является названием основного алгоритма Google, подпитывающего теорию).
Если все это правда, утечка действительно может дать более глубокое представление о том, как работает Google, но для этого утверждения нет надежного источника или каких-либо данных, подтверждающих его.
Быстрый поиск в LinkedIn показывает, что несколько сотен человек работали в обеих компаниях, хотя это не обязательно означает, что они работали в поисковой части любой операции.
Ведь и Яндекс, и Google предлагают гораздо больше, чем просто результаты поиска.
Google (что неудивительно) молчит об этом, как это часто бывает; они никогда добровольно не поделятся рецептом своего секретного соуса. В ветке LinkedIn на эту тему главный рупор Google, связанный с поиском, Джон Мюллер прокомментировал реакцию SEO-сообщества, а не фактическую утечку или заявления о том, что Яндекс и Google работают одинаково.
Реклама
Что мы можем узнать из утечки Яндекса?Сравнивая то, что мы знаем о том, как работает Google (на основе того, что они говорят нам, и пользовательского опыта), и как, по-видимому, работает поиск Яндекса — даже если они не похожи — интересно посмотреть, как установленные поисковые системы работают.
Один интересный момент, поднятый несколькими опытными SEO-специалистами, которые глубоко погрузились в утечку кода, заключается в том, что Яндекс извлекает результаты поиска из других поисковых систем, включая Google, Bing, YouTube и TikTok, используя эти данные в своих собственных алгоритмах.
Другие выявленные факторы Яндекса по существу являются негативными, обнаруживая элементы, которые являются «переоптимизированными», что будет противоречить странице или сайту с точки зрения ценности для поисковой системы. Это хорошо сочетается со многими обновлениями Google за последние несколько лет, такими как их недавнее обновление полезного контента; в духе, возможно, столько же, сколько и на практике.
Поисковые системы — сложные звери, поэтому даже опытным программистам придется копаться в огромном количестве информации, чтобы попытаться разобраться во всем — и протестировать ее. Все это займет время, чтобы разобрать и понять.
Повлияет ли утечка из Яндекса на то, как мы занимаемся SEO?На данный момент код Яндекса находится в эфире всего несколько недель, поэтому вполне возможно, что по мере того, как разные люди углубятся в него и поделятся своими мыслями, будет найдено больше информации.
Но, судя по всему, что мы видели и слышали до сих пор; Я не думаю, что это окажет фундаментальное влияние на чью-либо стратегию SEO, если они сосредоточатся на достижении лучших результатов с помощью Google или Bing. Под слоями кода и алгоритмов мы знаем, что создание высококачественного оптимизированного контента, отвечающего потребностям пользователей и предоставляющего им ответы, которые они ищут, — это то, что поисковые системы ищут и вознаграждают.
Реклама
Доказано, что SEO-интеграция отличного контента с техническими ноу-хау по всему сайту в стратегию, также включающую цифровой PR, обеспечивает наилучшие результаты для органической производительности — ничто из того, что я видел в утечке Яндекса, не изменило мою помни об этом.
Взгляд на подобные вещи редко бывает бесполезным, даже если все, что он делает, это подтверждает, что мы, вероятно, уже на правильном пути. Задавать вопросы и отталкивать, а не всегда принимать то, что поисковые системы говорят нам за чистую монету, — это часть того, что делает индустрию SEO великой и заставляет двигаться вперед.