Как работает поиск Яндекса — Статьи
Поиск находит информацию практически моментально, но что в это время происходит внутри него? Как он понимает, какой ответ подойдет пользователю лучше всего? Руководитель Поиска Яндекса Максим Загребин рассказывает, как алгоритмы обрабатывают запросы и почему ссылка на сайт — не всегда лучший ответ.
Как устроен поиск?Поиск в интернете состоит из двух частей:
- Поисковик обходит интернет, создавая его образ на своих серверах
- Выбрать из этих образов самую полезную информацию по запросу
Ежедневно Яндекс обрабатывает запросов больше, чем живет людей в России. Примерно половина из них никогда раньше не задавалась. Понятно, что отслеживать все эти показатели руками – невозможно. Невозможно написать для поисковой системы такую программу, в которой предусмотрен каждый запрос и для каждого запроса известен лучший ответ.
Сначала поиск выбирает из миллиардов ответов, потом из миллионов, и через какое-то количество этапов остаются те 10 сайтов на первой странице, которые лучше всего решают задачу пользователя. А для человека это все происходит моментально.
Люди не приходят в поиск, чтобы убить время, человек спрашивает что-то в Яндексе, когда у него есть какая-то конкретная задача. Например, найти какой-то фильм, который он помнит по описанию, но не помнит, как называется. Поэтому задача поиска – не просто найти и показать какую-то информацию, а помочь решить задачу пользователя. И страницу выдачи Яндекс формирует так, чтобы она лучше всего делала именно это – решала ту задачу, которую пользователь сформулировал в строке запроса.
При этом важно, чтобы поиск делал это быстро и удобно. Чтобы человеку не нужно было собирать всю информацию по крупицам с разных сайтов и не приходилось перепроверять ее, если сайт какой-то подозрительный. Например, если пользователь ищет ресторан или кафе, чтобы была сразу понятная шкала с проверенными отзывами: вот в этом ресторане чаще хвалят кухню, а здесь лучше интерьер и атмосфера.
Обычно пользователю нужно обойти несколько отзовиков или сайтов, чтобы собрать эту информацию самому. Почему бы не показать это сразу на странице выдачи?
Как понять, что поиск справился?В Яндексе работают инженеры, поэтому во всем они ориентируются на цифры и показатели. В данном случае показатели бывают двух типов.
Например, на запрос и на ответ на него может посмотреть человек, или сразу много разных людей – они называются асессорами – и оценить, насколько этот результат полезен и помогает решить задачу. Понятно, чт не всегда человек может оценить это, это довольно субъективно. Поэтом важно также смотреть на то, как пользователи ведут себя на странице результатов.
Если человек на запрос [как научить собаку ходить на поводке] чаще выбирает сайт с курсами дрессировки, который находится ниже, чем страница с общей инструкцией, то поисковая машина поднимает сайт с курсами выше в выдаче, потому что понимает, что он лучше решает задачу по этому запросу. Это называется принципом или показателем профицита*.
Профицит – это метрика, которая определяет полезность объекта в поиске по кликам пользователя.
Раньше просто оценивались переходы, Яндекс считал, что если человек перешел на какой-то сайт и провел там продолжительное время, это значит, что он для него уже оказался полезным. Но понятно, что это не всегда так. Поэтому Яндекс начал смотреть на то, решил ли человек свою конечную задачу на этом сайте.
Например, если он искал кофеварку, положил ли он ее в корзину, после перехода на сайт, оплатил ли заказ. Чтобы поиск мог это понять, сайты сами передают эту информацию через Яндекс.Метрику. Теперь Яндекс может показывать выше в выдаче те результаты, которые лучше решают задачу уже на самом сайте.
Как поиск этому научился?Поиск Яндекса использует машинное обучение. Именно потому, что невозможно каждый раз оценивать профицит того или иного сайта. Точно также, как инженеры поиска смотрят на все эти показатели – на оценки асессоров и на поведение пользователя на странице – алгоритм учится их оценивать и находить такие результаты, которые эти показатели улучшают.
Поисковая система должна уметь принимать решения самостоятельно и очень быстро, то есть выбирать из сотен миллиардов документов тот, который лучше всего отвечает пользователю. Алгоритмам машинного обучения демонстрируются примеры, огромное количество примеров, что вот тут человек решил свою задачу, а вот тут – нет. И дальше машинно-обученный алгоритм создает для себя такое правило и подбирает результаты.
Откуда берутся короткие ответы?Иногда поиск понимает, что человеку нужно получить ответ на свой вопрос быстро, но емко. Например, если пользователь задает запрос [почему море соленое], он не хочет читать подробную статью о морской воде, а хочет получить ответ сразу. Тогда пользователь показывает ему быстрый ответ на вопрос. А если человек хочет найти обувную мастерскую, то гораздо лучше решит его задачу карта, на которой будут все обувные мастерские его района, а не просто куча ссылок для них.
Такие ответы появляются по тем запросам, где поиск точно видит, что они полезнее, чем набор ссылок – то есть их профицит намного выше.
А если человек хочет почитать подробнее про состав морской воды, или про конкретную обувную мастерскую, он переходит на сайт. На самом деле поиск уже уходит от того, чтобы искать просто сайты: технологии идут к тому, чтобы поиск стал универсальным и искал сразу по контенту.
Например, пользователь ищет фильм «Семнадцать мгновений весны», поиск должен понять смысл того, что тот ищет, и найти этот фильм на 5 онлайн-кинотеатрах. А дальше пользователь уже сам выберет, где именно этот фильм посмотреть.
«Яндекс» перешел на поиск нового поколения. Он будет искать не только по сайтам, но и по сущностям
Интернет Веб-сервисы Техника
|
Поделиться
Компания «Яндекс» переосмыслила свой поисковик. Теперь российские пользователи могут не ограничиваться информацией только на русском языке — заработал синхронный перевод видео и трансляций, также появились детский аккаунт, поиск для профессионалов, а результаты поиска по «большим темам» сохраняются в отдельный блок.
«Яндекс» сделал редизайн
«Яндекс» запустил новую версию поиска Y2, сообщили CNews представители компании. Теперь система может искать информацию по видео с закадровым переводом, объектам, фильтрует контент для детских аккаунтов и позволяет разбираться с большими темами.
Визуально изменились главная страница «Яндекса» и мобильное приложение. Теперь они сфокусированы только на поиске. С главной страницы убрали все сервисы кроме поисковой строки, информации о погоде, курсе валют и пробках. Остальные продукты компании: «Яндекс Картинки», «Авто.ру», «Яндекс Музыку» и т.д. разработчики вынесли в отдельную вкладку в нижнем левом углу сайта.
«“Яндекс” по прежнему будет искать по сайтам, но теперь движется и в сторону поиска по сущностям. — рассказали эксперты «Яндекса» в презентации. — Потому что чаще всего нужны не сайты, а что-то конкретное: товар, услуга, песня, или даже человек».
Поиск для профи
Поиск Y2 лучше отвечает на вопросы разработчиков и специалистов по машинному обучению. Для этого в поиск внедрили нейросеть-трансформер CS YATI, которую обучили на запросах по программированию и оценках разработчиков. Новая нейросеть учитывает в полтора раза больше параметров, чем запущенная два года назад YATI.
«Яндекс» запустил новую версию поиска Y2
«На срезе программистских запросов мы увидели, что стандартные способы обучения алгоритмов не очень хорошо подходят для профессиональных запросов, — рассказала Екатерина Серажим, руководитель отдела качества «Яндекс Поиска». — Хотя наш поиск показывал условно корректные ответы по программированию, но это не те ответы, которые порекомендовал бы профессиональный программист. Проблема оказалась в том, что результаты поиска оценивают специалисты, которые не понимают в программировании. Мы сначала наняли специалистов программистов для этой задачи, а потом обучили нейросеть на основе их оценок. Сейчас помимо прочих алгоритмов при поиске срабатывает нейронная сеть, которая классифицирует, что запрос относится к программированию и тогда включается “большая” нейронная сеть».
Со временем также будут развивать выдачу для медиков, финансистов и других профессионалов.
Детский аккаунт
Появился в «Яндексе» и детский аккаунт, его можно привязать к аккаунту родителей. Он будет работать не только в поиске, но и на других сервисах платформы.
«В детском аккаунте фильтруется контент в поисковой системе по самым сложным вопросам: насилие, наркотики и секс, — рассказала Елена Бубнова, руководитель «Яндекс Поиска». — Нейросеть определяет контент который мы собираемся показать и ограждает детей от опасной, шокирующей или неподходящей по возрасту информации. входят треки без мата в приложении “Яндекс.Музыка”, специальная детская подборка в “Кинопоиске”».
Большие темы в одном блоке
По словам представителей «Яндекса», Y2 научился видеть за отдельными запросами долгосрочный интерес к той или иной теме и структурировать собранную человеком информацию.
«Теперь стало проще вернуться к вопросам, к которым пользователь уже проявлял интерес. — рассказала Елена Бубнова. — Алгоритм также посоветует в какие нюансы нужно еще погрузиться. Он соберет запросы, которые пользователь еще не задавал, но скорее всего задаст. К подборке можно будет вернуться в один клик».
Сейчас поиск выделяет такие большие темы, как образование, карьера, финансы, семья, квартира, ремонт и так далее. Для этого «Яндекс» применяет сложный классификатор на основе генеративной нейронной сети YaLM.
Технологический тренд 2022: как и зачем бизнесу внедрять подход Cloud Native
Цифровизация
Меняется и онлайн-шопинг. Теперь не надо заходить на все сайты подряд, обновленный поиск, по словам Елены Бубновой, соберет самое важное о товаре в одну карточку и покажет в выдаче.
Видео с автопереводом
В новой версии поисковика от «Яндекс» появились фильтры для поиска видео с автоматическим голосовым переводом на русский язык, сообщают представители компании.
Нейросеть может найти подходящее видео на иностранном языке и «на ходу» перевести его. Сейчас россиянам доступны видео с автопереводом с английского, немецкого, французского, итальянского и испанского языков.
Напомним, что «Яндекс» презентовал технологию автоперевода видео еще в июле 2022 г. Российский ИТ-гигант продемонстрировал возможности прототипа на подборке из дюжины Youtube-роликов, в том числе и на прямых трансляциях.
Артем Пермяков, Directum: HR-специалист становится агентом цифровизации
Цифровизация
«Русскоязычного контента во всей сети меньше 10%. Теперь можно смотреть видео и даже не задумываться на каком языке оно сделано — отметили эксперты «Яндекса». — Машинным переводом в мире занимается не там много компаний, это довольно сложный процесс. Трудно определить, что такое идеальный машинный перевод, но мы опробовали. Как и человек, нейросеть обучается на примерах. Ей нужно показать много примеров параллельных предложений — это одни и те же предложения, но на разных языках. Показываем 10 млн, 100 млн примеров и нейросеть все запоминает. На видео мы не смотрим, мы работает только с аудиодорожкой. Технология распознает речь, определяет какие спикеры говорят каждую реплику. Дальше каждую фразу надо перевести, синтезировать речь, озвучить ее подходящим голосом (у нас в общей сложности 12 разных мужских и женских голосов). После этого, к дорожке с переведенной речью добавляется исходный саундтрек — и готово. С трансляциями и прямыми эфирами работа сложнее. Здесь нет возможности досмотреть видео до конца, значит меньше контекста и шансов правильно все перевести, но нейросеть справляется».
Как отметили пользователи, этот сервис действительно удобен, однако перевода русского на другие языки пока нет.
Что еще происходит с «Яндексом»
В конце ноября 2022 г. стало известно, что совет директоров Yandex (владелец российского «Яндекса») готовится к разделению компании. У Yandex останутся международные части ряда направлений компании, включая разработку беспилотных автомобилей, облачные технологии, образовательные сервисы и платформа по разметке данных. В то же время российская часть этих направлений останется у российского «Яндекса».
Ранее агентство Bloomberg сообщало, что основатель и главный акционер Yandex Аркадий Волож ведёт переговоры с заместителем главы Администрации Президента России Сергеем Кириенко и главой Счётной палаты Алексеем Кудриным.
- ИТ-маркетплейс Market.CNews: выбрать лучший из тысячи тариф на облачную инфраструктуру IaaS среди десятков поставщиков
Юлия Божко
Технология обратного поиска изображений «Сибирь» в Яндексе просто потрясающая
Пользователи Яндекса теперь будут иметь доступ к обратному поиску изображений, «Сибирь», что в переводе с русского означает «Сибирь», а также на основе аббревиатуры CBIR, что означает «изображение, основанное на содержании». поиск».
Обратный поиск изображений дает результаты, основанные не на поиске слов, а на поиске визуального контента. Разработчики из Яндекса завершили создание технологии компьютерного зрения, предоставив пользователям лучший продукт для поиска изображений.
Как работает Сибирь
Процесс начинается, когда пользователь Яндекса отправляет фотографии в виде поисковых запросов. Затем он преобразует фотографию в числовое представление ключевых характеристик фотографии, процесс, который называется набором «визуальных фраз». Затем поисковая система просматривает миллиарды фотографий в Интернете, чтобы выбрать только те изображения, которые содержат те же визуальные фразы, что и фотография, изначально отправленная пользователем.
Перебирая все изображения по визуальным фразам, Яндекс ускоряет процесс поиска, сужая область поиска. В итоге наиболее похожая фотография будет найдена благодаря тому, что компьютер сравнивает представленную фотографию с ключевыми характеристиками искомого изображения.
Весь процесс работы Яндекса с Сибирью, от загрузки и выбора фото до возврата с результатами поиска, займет менее одной секунды.
Сибирь была первоначально анонсирована и выпущена неделю назад в Турции и год назад в России, Казахстане, Украине и Беларуси.
Чем полезна Sibir
Хотя обратный поиск изображений может быть не самой востребованной функцией поисковой системы, Яндекс считает, что популярность этой функции будет расти. Как только пользователь получил возможность использовать сервис, он становится необходимым инструментом при загрузке или выборе фотографий через Интернет.
Есть много причин, по которым Sibir может быть полезен и необходим пользователю при поиске в Интернете. Наиболее распространенные ситуации включают подлинность, точное исследование, более высокое разрешение фотографий, нарушение авторских прав и покупки.
Очень важно иметь возможность аутентифицировать фотографию с соответствующей информацией или веб-сайтом.
Например, когда дело доходит до социальной сети или сайта знакомств, с Sibir пользователь будет иметь доступ к информации, которая уведомит его, если фотография этого человека хочет подружиться с вами или что то, что находится в его профиле, является подлинным.
Ресурсы
Или, при поиске новой квартиры, которая указана в Интернете, Sibir уведомит пользователей, действительно ли показанные фотографии интерьера квартиры являются фотографиями квартиры. В этой ситуации пользователь, ищущий изображение, будет чувствовать себя спокойно, зная, что фотографии, которые ему показывают, являются подлинными и реальными.
Предоставление точной информации также играет ключевую роль в поиске; если пользователь отправит фотографию неопознанного объекта, поиск вернет информацию об этой фотографии. Примером этого может быть отправка фотографии растения розмарина. Поиск даст правильное описание розмарина, а не шалфея.
Независимо от того, являетесь ли вы студентом или профессионалом, в любой карьере наступает момент, когда для создания презентации, предложения или отчета требуются фотографии. Необходимость в фотографии или изображении также актуальна для веб-публикаций или различных публикаций, включая, помимо прочего, книги, журналы и газеты.
Обратный поиск изображения может позволить пользователю найти нужную фотографию с самым высоким разрешением, не обрезая фотографию. Для индустрии фотографии и искусства Sibir предоставит доступ к знаниям о нарушении авторских прав. Как художники, так и фотографы смогут искать свои собственные работы и определять, не дублировались ли они где-либо еще, и собирать недостающие гонорары, которые у них могут быть.
Наконец, эта новая функция поиска, вероятно, будет использоваться потребителями для сайтов электронной коммерции. Покупатели могут загрузить фотографию, например, пары женской обуви и найти, где эта обувь продается. Следить за своим любимым фэшн-блогером и хотеть покупать новейшие модные тенденции стало намного проще.
Заключительные мысли
Многие другие компании исследовали подобные технологии, и все они достаточно хороши, однако приятно видеть, что Яндекс немного поднимает планку.
Технология компьютерного зрения представляет собой чрезвычайно сложную с точки зрения исследований и очень ресурсоемкую технологию. В отличие от других компаний, которые могут работать только с небольшими коллекциями фотографий, Sibir может работать с десятками миллиардов изображений.
Сибирь может найти изображения с одним и тем же объектом, а также точно такую же фотографию. С помощью Яндекса вместе с Sibir разработали удивительный сервис, превзойдя других в отрасли своими передовыми технологиями и предоставив пользователям более полезный ресурс.
Яндекс, российская поисковая компания, якобы собирает данные миллионов пользователей iOS
Софи Вебстер, Tech Times
(Фото: Unsplash/Jeremy Bezanger) iOS
Яндекс, российская поисковая система и рекламная фирма, предположительно собирает данные миллионов пользователей iOS и отправляет их в Россию, согласно новому заявлению.
Яндекс отправляет данные в Россию
Яндекс, российская версия Google, поддерживает поисковую систему, рекламные инструменты и другие службы. Его услуги включают API AppMetrica, который многие разработчики используют как простой способ получения аналитических данных для своих приложений.
Как сообщает The Financial Times, исследователь безопасности Зак Эдвардс обнаружил, что код аналитики Яндекса встроен в 52 000 приложений в программном обеспечении Apple и Google.
По сообщениям Apple Insider, с этого момента Яндекс достиг сотен миллионов пользователей iOS.
Читайте также: Сотрудник Яндекса осужден за кражу кода поисковой системы
Яндекс признал, что данные, собранные через его API и другие сервисы, отправляются на российские серверы. Поисковая система отметила, что у нее есть строгий процесс обработки государственных запросов на данные, который включает в себя отклонение любых запросов, которые не соответствуют соответствующим процессуальным и юридическим требованиям.
Однако эксперты по безопасности предупреждают, что, как только данные будут храниться в России, Яндекс ничего не сможет сделать, чтобы помешать российскому правительству получить их.
Кроме того, некоторые данные, которые собирает API Яндекса, включают метаданные, которые можно использовать для идентификации пользователей iOS.
Эдвардс, который обнаружил распространенность кода, сказал, что использование приложений, которые отправляют данные в Россию, опасно для людей с высоким профилем угрозы или работающих на высококлассных должностях. Это потенциально может привести к атакам на домашние сети и другим формам цифрового наблюдения.
Приложения, использующие AppMetrica API, включают службу обмена сообщениями, игры, инструменты для обмена местоположением и множество приложений VPN для виртуальной частной сети.
Семь из выявленных исследователями VPN явно нацелены на украинцев. Общее количество загрузок приложений с API достигает сотен миллионов.
Яндекс защитил свой инструмент, сравнив его с комплектами разработки, предоставляемыми Google и другими поисковыми системами. Он также сказал, что никогда не выдавал никакой информации о пользователях каких-либо приложений с установленной на них AppMetrica, и они не просили об этом.
Apple заявила, что API AppMetrica можно остановить с помощью собственной технологии App Tracking Transparency.
Яндекс уволил рабочих из США
Новости о том, что Яндекс собирает данные пользователей iOS, появились после того, как поисковая система и рекламная фирма, как сообщается, уволили десятки своих сотрудников в США.
У компании был парк автономных транспортных средств в Анн-Арборе, штат Мичиган, и она утверждала, что штат приостановил действие их лицензий. Однако штат Мичиган опроверг это утверждение.
По данным The Verge, лицензии на автомобили были связаны с вторжением России в Украину. Из-за этого Яндекс прекращает тестирование антивируса в Мичигане. Это включает в себя прекращение испытаний и развертывание роботов-доставщиков в кампусах в Огайо и Аризоне.
9 марта Департамент транспорта Мичигана приостановил действие лицензий компании на транспортные средства. Это заставило Яндекс уволить шесть своих водителей в Анн-Арборе.
Помимо шести водителей, Яндекс также уволил 21 работника в Огайо и Аризоне, которые работали на местах в качестве вспомогательного персонала для роботов-доставщиков компании.