Компания Яндекс — Главные новости — Яндекс ищет в реальном времени
Интернет, 9 июля 2010 года. Яндекс разработал и внедрил новую поисковую технологию, которая позволяет находить совсем свежие документы — через минуты после их появления в интернете.
Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в дни важных событий) посвящено событиям, которые случились совсем недавно. Задавая эти запросы, пользователи ожидают найти в том числе и документы, которые были созданы только что. Чтобы хорошо отвечать на такие запросы, Яндекс, во-первых, научился выявлять их среди общего потока, и во-вторых, внедрил нового поискового робота — Orange. Orange работает в режиме реального времени. Он умеет находить свежие документы, как только они появились в интернете, индексировать их и выкладывать на поисковые сервера буквально за несколько секунд.
Некоторые сайты интернета обновляются не очень часто, а на других — например, на новостных ресурсах — новые документы создаются постоянно. Orange обходит такие сайты и добавляет новые документы в поиск по мере их появления, без задержек.
Чтобы определять, нужна ли свежая информация в ответ на те или иные запросы, Яндекс разработал несколько детекторов. Они анализируют самую разную информацию — например, тематику сообщений в СМИ или рост количества поисковых запросов по той или иной теме.
«В интернете сейчас все больше real-time информации, которая нужна людям прямо сейчас. И мы хотим дать им возможность находить её прямо сейчас, — говорит Федор Романенко, менеджер качества поиска. — Это только первый шаг, конечно, мы будем улучшать качество поиска по новостным запросам и дальше. Новая технология дает возможность делать это сравнительно легко».
Робот Orange и технология поиска в реальном времени были разработаны специалистами из Yandex.Labs — калифорнийского офиса компании — в сотрудничестве с разработчиками из московского офиса. Подробнее о новых технологиях можно почитать в блоге Яндекса.
Контакты
Компания «Яндекс»
Пресс-служба
Очир Манджиков, Дина Литвинова
Тел: +7 (495) 739-7000
Электронная почта: [email protected]
yandex.ru
Компания Яндекс — Технологии — Архитектура ответа на вопрос
Каждый день пользователи задают Яндексу десятки миллионов запросов, и поисковая система должна не только точно отвечать, но и быстро обрабатывать весь этот поток. Для этого Яндекс использует заранее подготовленные данные — индекс. Безусловно, поиск с помощью индекса ускоряет процесс ответа пользователю, как, например, предметный указатель в книге помогает быстрее найти нужное слово. Но размеры самого «предметного указателя» в поиске — огромны. Чтобы обрабатывать такие объемы данных и делать это быстро, Яндекс использует тысячи серверов. Сервера объединены в кластеры и даже в кластеры кластеров.
Архитектура поиска Яндекса устроена так, что к уже существующим серверам можно легко добавлять новые — для новых данных из постоянно растущего интернета.
Все пользовательские запросы сначала попадают в компьютерную систему «метапоиск». Метапоиск обрабатывает каждый запрос в реальном времени — выясняет все необходимые данные про запрос (из какого региона он был задан, к какому классу относится и т.п.), проводит лингвистическую обработку. Затем метапоиск проверяет, формировались ли в последнее время результаты поиска для этого запроса. Результаты поиска по часто задаваемым запросам некоторое время хранятся в памяти метапоиска, а не формируются каждый раз заново. И если вновь пришедший запрос оказался популярным, метапоиск покажет пользователю заранее сохраненные результаты.
Если же ответа в памяти нет, то метапоиск передаёт запрос на сервера другой компьютерной системы — «базового поиска». На базовом поиске хранится слепок интернета, по которому ищет Яндекс, — поисковая база. Она разбита на части, которые хранятся на разных серверах — искать ответ одновременно по нескольким частям базы данных быстрее, чем по всей базе целиком. Кроме того, у каждого сервера есть несколько копий. Это позволяет распределять нагрузку и не терять данные — если один из серверов не сможет своевременно ответить, информация всё равно найдется на дублирующих серверах. Из тысяч серверов базового поиска метапоиск выбирает наименее загруженные – таким образом, чтобы вместе они содержали целую поисковую базу.
Каждый из серверов отдаёт список документов, в которых есть слова из запроса, обратно в метапоиск. Там они объединяются, ранжируются с помощью технологии и попадают на страницу результатов поиска.Благодаря такой организации поиск Яндекса может отвечать пользователю за доли секунды.
yandex.ru
common | Метаданные запроса. | Да |
version | Версия API Локатора: | Да |
api_key | Ключ доступа к API Локатора. | Да |
gsm_cells | Массив объектов, каждый из которых описывает одну соту. Необходим хотя бы один объект в массиве. | Нет |
countrycode | Код страны. | Да |
operatorid | Код сети мобильной связи. | Да |
cellid | Идентификатор соты. | Да |
lac | Код местоположения. | Да |
signal_strength | Уровень сигнала, измеренный в месте нахождения мобильного устройства. Отрицательное число, выраженное в децибелах к милливатту — dBm. Элемент зарезервирован для будущего использования. | Нет |
age | Время в миллисекундах с момента получения данных через программный интерфейс мобильного устройства. Элемент зарезервирован для будущего использования. | Нет |
wifi_networks | Массив объектов, каждый из которых описывает одну точку доступа Wi-Fi. Необходим хотя бы один объект. | Нет |
mac | MAC-адрес в символьном представлении без разделителей. Например: 123456789ABC . | Да |
signal_strength | Уровень сигнала, измеренный в месте нахождения мобильного устройства. Отрицательное число, выраженное в децибелах к милливатту — dBm. Элемент зарезервирован для будущего использования. | Нет |
age | Время в миллисекундах с момента получения данных через программный интерфейс мобильного устройства. Элемент зарезервирован для будущего использования. | Нет |
ip | Содержит IP-адрес. | Нет |
address_v4 | IP-адрес мобильного устройства, назначенный оператором мобильного интернета. Если IP-адрес отсутствует или некорректен, Локатор будет использовать адрес отправителя из заголовка IP-пакета. Этот адрес может быть подменен прокси-сервером, через который прошел IP-пакет. | Да |
yandex.ru
Прямой эфир поисковых запросов от Яндекс
Недавно столкнулся с необходимостью определения того, как себя ведут пользователи, пытаясь что-либо найти; как они составляют поисковый запрос? что ищут чаще всего? и наткнулся на замечательный сервис исследований от Яндекса. А именно, прямая трансляция запросов к поиску Яндекса.
Сам ресурс:http://company.yandex.ru/researches/interes/
В прямом эфире можно посмотреть тысячи запросов, вводимых пользователями в яндекс по всему миру!
Сервис, в целом — помогает понять психологию пользователей. Подобная информация может оказаться крайне полезной для понимания того, как среднестатистический пользователь составляет поисковый запрос и что чаще всего ищет. Незаменимый инструмент в копилке веб-разработчика, так сказать. Свои наблюдения можно использовать в SEO, в формировании разночастотных запросов, да и, в целом, очень познавательно. Все-таки весело наблюдать, как в России львиная доля запросов — это:
Чего уж там, на это можно смотреть часами, зачитывая мантры.
Согласно информации от Google за 2012 год, топ поисковых запросов в России выглядит так:
Да-да, так и есть)
keass.ru
Яндекс ищет в реальном времени
Яндекс разработал и внедрил новую поисковую технологию, которая позволяет находить совсем свежие документы — через минуты после их появления в интернете.
Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в дни важных событий) посвящено событиям, которые случились совсем недавно. Задавая эти запросы, пользователи ожидают найти, в том числе и документы, которые были созданы только что. Чтобы хорошо отвечать на такие запросы, Яндекс, во-первых, научился выявлять их среди общего потока, и во-вторых, внедрил нового поискового робота — Orange. Orange работает в режиме реального времени. Он умеет находить свежие документы, как только они появились в интернете, индексировать их и выкладывать на поисковые сервера буквально за несколько секунд.Некоторые сайты интернета обновляются не очень часто, а на других — например, на новостных ресурсах — новые документы создаются постоянно. Orange обходит такие сайты и добавляет новые документы в поиск по мере их появления, без задержек.
Чтобы определять, нужна ли свежая информация в ответ на те или иные запросы, Яндекс разработал несколько детекторов. Они анализируют самую разную информацию — например, тематику сообщений в СМИ или рост количества поисковых запросов по той или иной теме.
«В интернете сейчас все больше real-time информации, которая нужна людям прямо сейчас. И мы хотим дать им возможность находить её прямо сейчас, — говорит Федор Романенко, менеджер качества поиска. — Это только первый шаг, конечно, мы будем улучшать качество поиска по новостным запросам и дальше. Новая технология дает возможность делать это сравнительно легко».
Робот Orange и технология поиска в реальном времени были разработаны специалистами из Yandex.Labs — калифорнийского офиса компании — в сотрудничестве с разработчиками из московского офиса. Подробнее о новых технологиях можно почитать в блоге Яндекса.
www.seonews.ru
Исследования Яндекса — 50 российских городов с точки зрения поиска Яндекса
В Сочи — море, в Санкт-Петербурге — музеи, в Москве — Кремль, в Туле — самовары, в Рязани — грибы с глазами, а в Петропавловске-Камчатском — полночь. У людей есть те или иные ассоциации со многими российскими городами — даже с теми, в которых они никогда не были. Мы решили посмотреть, как выглядят 50 крупнейших городов с точки зрения пользователей Яндекса из других мест. Взяли все поисковые запросы с названиями этих городов за год, с августа 2016 по август 2017, и выяснили, откуда больше всего ищут каждый город, какие города больше всего ищут в нём, а также выбрали примеры популярных слов и словосочетаний.
Сразу перейти на страницу города
Оказалось, что про Сочи действительно часто спрашивают в связи с морем и пляжем, а про Тулу — в связи с пряниками и самоварами. Москва больше интересует жителей других городов с точки зрения жизни и работы, во Владивостоке многие хотят продать или купить машину, а в Краснодар стремятся переехать.
Есть города, про которые спрашивают в первую очередь в связи с расположенными там предприятиями и их продукцией. Люди ищут мебель из Пензы, меха и шубы из Кирова, трикотаж и текстиль из Иванова, а в запросах про Ижевск часто встречаются слова «ружьё», «винтовка» и «пистолет». Другие города вызывают интерес благодаря учебным заведениям — например, в запросах про Томск, Омск и Ставрополь очень часто встречаются названия местных вузов. Некоторые города притягивают туристов. Во многих запросах про Санкт-Петербург упоминаются достопримечательности — особенно дворцы и мосты. Также ищут хостелы, отели, квартиры посуточно и другие места, где можно остановиться. Казанью и Калининградом также интересуются с точки зрения достопримечательностей и экскурсий, а Пермь, Самара и Астрахань ассоциируются с речными круизами.
На интерес к некоторым городам сильно повлияли значимые события, случившиеся там в течение года: много запросов про теракт в Санкт-Петербурге или отравление «Боярышником» в Иркутске.
Мы исследовали только запросы, которые касались непосредственно того или иного города. Не учитывали запросы про соответствующие регионы — например, [карта краснодарского края] или [полное название загса города сердобска пензенской области]. Также не рассматривали запросы с одноименными названиями улиц, станций метро, вокзалов, организаций, художественных произведений и футбольных клубов — скажем, [банки 1-я тверская-ямская], [электрички ярославского направления], [москва слезам не верит смотреть] или [ростов манчестер юнайтед 9 марта 2017].
Мы определили, во-первых, общее количество запросов про каждый из 50 крупнейших городов со всей России, а во-вторых — число запросов про него из каждого из остальных 49 больших городов. Затем для каждого города составили топы — те города, которые чаще всего ищут в нём, и те, из которых чаще всего ищут его.
Также мы составили облака слов и словосочетаний, характерных для запросов про этот город из других больших городов. Самые популярные слова и словосочетания схожи во всех городах — обычно это «официальный сайт», «прогноз погоды», а также названия интернет-сервисов и организаций. Поэтому мы взяли только те слова и словосочетания, которые попали в топ-500 не более чем в 10 городах. Из них выбрали характерные примеры — те, которые не связаны с названиями конкретных сервисов и организаций, кроме наиболее значимых — например, университетов и заводов.
yandex.ru