Яндекс матрикснет – Матрикснет в Рекламной сети Яндекса — Новости рекламных технологий Яндекса | Дропшиппинг

Содержание

Яндекс — информация о компании — Матрикснет

В 2009 году Яндекс внедрил новый метод машинного обучения — Матрикснет. Важная особенность этого метода — в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования — и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности. Матрикснет — это метод машинного обучения, с помощью которого строится формула ранжирования Яндекса.

С помощью Матрикснета можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Другие методы машинного обучения позволяют либо строить более простые формулы с меньшим количеством факторов, либо нуждаются в большей обучающей выборке. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать существенно более точный поиск.

Ещё одна важная особенность Матрикснета — в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится. Для примера можно представить себе формулу ранжирования в виде сложного механизма с большим количеством ручек. На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет даёт возможность настроить каждую ручку отдельно для своего класса запросов.

Кроме того, Матрикснет автоматически выбирает разную чувствительность для разных диапазонов значений факторов ранжирования. Это в чём-то похоже на работу на аэродроме — когда среди постоянного шума взлетающих самолётов нужно слышать и голоса людей. Если заткнуть уши, то самолёты будут слышны, а голоса — нет. Сотрудники аэропорта работают в специальных наушниках, слабо чувствительных к громкому шуму — так можно услышать и самолёты, и голоса людей.

Поскольку поисковая система работает с очень большими объёмами информации, по каждому запросу ей нужно проверить признаки миллионов страниц, определить их релевантность и соответственно упорядочить — так, чтобы сверху оказались более подходящие страницы. Чтобы проверить свойства всех страниц по очереди, нужно либо очень много серверов, которые могут быстро обработать информацию обо всех страницах, либо очень много времени — а поиск должен работать быстро, иначе пользователи не дождутся результатов. Матрикснет позволяет проверить очень много факторов за короткое время и без существенного увеличения вычислительных мощностей.

Поиск ведётся одновременно на тысячах серверов. Каждый сервер ищет по своей части индекса и формирует список самых лучших результатов. В него гарантированно попадают все самые релевантные запросу страницы.

Дальше из этих списков составляется один общий, и страницы, попавшие туда, упорядочиваются по формуле ранжирования — той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учётом всех факторов и их комбинаций. Таким образом, наверху поисковой выдачи оказываются все самые релевантные сайты — и пользователь почти мгновенно получает ответ на свой вопрос.

Компания Яндекс — Технологии — Рекомендательная технология Диско

Современный мир предлагает человеку множество товаров, услуг и развлечений. Богатый выбор — это хорошо, но, когда ассортимент слишком широк, сложно остановиться на чём-то одном. На то, чтобы купить пылесос или даже просто выбрать фильм на вечер, уходит много времени и сил. Приходится читать отзывы, сравнивать описания и характеристики или спрашивать совета у друзей. Поэтому становится необходимой возможность не просто найти нужный объект — например, фильм, товар или музыкальный трек, — а быстро и просто выбрать из миллионов похожих объектов подходящий.

Чтобы сделать выбор и принять решение было проще, придуманы системы персональных рекомендаций. Их задача — сузить предложение до вариантов, которые с наибольшей вероятностью подойдут конкретному человеку. В основе подобных систем лежат сложные рекомендательные технологии. В Яндексе для таких случаев разработана технология Диско. Она используется в сервисах с крупными каталогами объектов — в Музыке, Радио, Маркете и Видео.

Технология Диско получила своё название в честь музыкального жанра, ведь именно на Яндекс.Музыке впервые появились рекомендации — это произошло в сентябре 2014 года. Слово «диско» созвучно английскому слову discovery, которое означает «открытие нового» и хорошо описывает суть технологии.

Выявление предпочтений

Прежде чем что-либо советовать человеку, стоит уточнить его вкусы и предпочтения. Узнать о них Диско может из нескольких источников. Во-первых, это поисковые запросы — они могут рассказать о текущих интересах. Во-вторых, это данные от технологии Крипта: пол, примерный возраст и род занятий. Они позволяют не рекомендовать человеку то, что ему заведомо не понравится. Скажем, 15-летней девочке, которая увлекается аквааэробикой, не стоит советовать музыку в жанре шансон. Наконец, это сведения от сервиса, для которого составляются рекомендации. Например, в Маркете это информация о том, какие товары просматривал человек, а в Музыке и Радио — какие треки он слушал. Само собой, все данные обезличены.

Сигналы о предпочтениях пользователя могут быть положительными и отрицательными. Например, в Яндекс.Радио и Яндекс.Музыке композиции, которые пришлись не по душе, можно пропускать или отмечать оценкой «не нравится». Это отрицательный сигнал — он говорит о том, что в дальнейшем человеку такую музыку рекомендовать не надо. Кроме того, сигналы могут отличаться по весу. И оценка «мне нравится», и факт прослушивания трека от начала до конца являются положительными сигналами, но у первого вес будет больше.

Составление рекомендаций

Составляя рекомендации, Диско использует три разных подхода. Первый подход опирается на информацию об объектах и связях между ними. Например, про любой музыкальный трек известно, на каком альбоме он вышел, кто его исполняет и к какому жанру он относится, а про любой товар — кто его производитель, каковы его характеристики и к какой категории товаров он принадлежит. Проанализировав связи, можно посоветовать пользователю объекты, родственные тому, чем он уже интересовался. Скажем, если человек часто слушает прогрессивный рок, ему можно предложить другие треки этого жанра, а если человек купил плиту и холодильник одного и того же производителя, а сейчас подбирает микроволновку, его, скорее всего, заинтересуют модели, выпущенные этой же компанией.

В основе второго подхода лежит информация о связях между людьми. Благодаря Крипте известны пол, примерный возраст и предположительный род занятий каждого пользователя. Установлено, что людей, у которых эти характеристики совпадают, часто интересуют одни и те же объекты. Даже если человек пользуется сервисом впервые и ещё не успел ничего посмотреть, послушать или приобрести, можно проверить, что смотрят, слушают или покупают люди со схожими характеристиками — и предложить ему эти же объекты.

Третий подход использует данные о взаимодействиях пользователей с объектами. Взаимодействием можно считать, например, факт просмотра видеоролика или оценку «нравится», поставленную музыкальному треку. Подход (в теории рекомендательных систем он известен как SVD — singular value decomposition, или сингулярное разложение) позволяет, опираясь на уже известные взаимодействия, предсказать, как пользователи отреагируют на те или иные объекты — например, какую оценку они поставят фильму, который пока не видели.

У каждого из подходов есть свои достоинства. Первый подход позволяет посоветовать человеку редкие объекты, которыми мало кто интересуется — например, малоизвестную музыкальную группу. Второй подход даёт возможность составлять рекомендации для людей, которые оказались на сервисе впервые и ещё не успели совершить никаких действий. Третий подход позволяет найти нетривиальные закономерности: скажем, может выясниться, что люди, которые интересуются надувными бассейнами и фитнес-трекерами, чаще других покупают кофеварки.

На этих трёх подходах основаны все рекомендательные модели, которые используются в Диско. Таких моделей насчитывается несколько сотен, и все они работают по-разному: одна составляет рекомендации с учётом музыкального жанра, вторая — с учётом бренда товаров, и так далее. Каждая модель на вход принимает набор параметров, а на выходе выдаёт список рекомендаций.

Обработка рекомендаций

Все рекомендации от различных моделей обрабатывает метод машинного обучения Матрикснет. Его задача — составить сочетание рекомендаций, которое бы идеально соответствовало интересам пользователя в данный момент.

Решая эту задачу, Матрикснет учитывает множество факторов. Например, фактор разнообразия — людям, у которых в плейлистах соседствуют треки разных жанров и исполнителей, стоит советовать более разнообразную музыку, чем тем, кто привык включать альбом и слушать его от начала до конца. Или фактор популярности — кто-то предпочитает слушать музыку, которую часто крутят радиостанции, а кто-то любит редкие треки, которые известны только узкому кругу меломанов.

Результат работы Матрикснета — финальный список рекомендаций. Его пользователь и видит на сервисе — например, на главной странице Яндекс.Музыки или в разделе «Популярные товары» на Яндекс.Маркете.

Матрикснет Яндекс — Заработок в интернете без вложений для начинающих

Матрикснет Яндекс означает специфический способ обработки информации и обучения компьютерных программ. В результате его работы создаются и совершенствуются машинные алгоритмы, это позволяет поисковику Яндексу учитывать намного больше аспектов ранжирования, нежели раньше до его появления. Сама система алгоритмов совершенствует поисковую систему и позволяет ей выдавать лишь отборную информацию. Этот программный продукт принадлежит русскому поисковику. Другие поисковые сервера используют собственные способы, которые по ряду параметров значительно уступают Матрикснету.

Мифы по поводу работы поисковых систем

Можно точно сказать, что при обращении к поисковику за помощью в поиске какой-либо информации он не будет просматривать абсолютно все существующие в интернете страницы с запрашиваемым материалом.

Получая запрос, поисковая система обращается к готовому индексу, который представляет собой большую, постоянно обновляемую базу данных. Там находятся ключевые слова по каждой статье. Вбивая в поиск определенные запросы, вы, сами того не понимая, ищете необходимый вам материал по ключевикам. Индекс – это база данных, которая пополняется изо дня в день.

Матрикснет Яндекс — история создания

Обращаясь к истории создания системы Матрикснет, нужно сказать о том, что разработана она параллельно с системой «Снежинск». Основной целью создателей системы было совершенствование работы по пути увеличения количества факторов в процессе отбора релевантных страниц. Другими словами, специалисты существенно увеличили число параметров, по которым отбираются страницы. Благодаря применению некоторых математических формул и законов, стало возможно получать отборные страницы с запрашиваемым материалом, избегая ошибок. Проще говоря, машина, оснащенная системой алгоритмирования Матрикснет, выдавала лишь качественно выбранные страницы по совершенным поисковым запросам. К тому же, формула, по которой запрограммированная программа Матрикснет, позволяет проверять страницу по десяткам тысяч различных критериев и коэффициентов.

Как работает система алгоритмирования Матрикснет

Прибегая к рассмотрению свойств и функций поисковых систем, можно отметить, что такие системы обучаются, дабы совершенствовать качество поисковых работ. Все они построены под единую схему обучения. В этом вопросе существует 2 термина, разобраться с которыми вам поможет информация ниже.

1) Итак, существует время проведения переиндексации под названием апдейт. Далее, дабы избежать ошибки и ложной информации, выдаваемой пользователю, все отобранные во время переиндексации страницы подлежат дополнительной проверке асессора. В случае, если асессор принимает результат и считает выбранную на предыдущем этапе страницу релевантной, то есть удовлетворяющей параметры запроса, страница помещается в индекс. Именно из индексной базы данных информация попадает к пользователю в виде найденных материалов по запросу.

2) Матрикснет разработан в связи с неисчислимым количеством страниц в сети, которое с каждым днем растет. Не существует такого мощного асессора, который бы справился с этим количеством. Таким образом, созданная программа алгоритмирования Матрикснет, выполняя функции асессора, не замещает его, а лишь дополняет действия. Матрикснет работает по принципу учета критериев ранжирования в динамике. Так, машина выполняет часть функций асессора, тем самым замещая его работу хотя бы на малую долю и выбирает из общего объема наиболее авторитетные ресурсы.

В заключении хочется отметить, что созданная система алгоритмирования Матрикснет Яндекс предоставила возможность исключать из поиска нетематические страницы, даже если они содержат в себе некоторые параметры запроса. Появление Матрикснета привело к тому, что поиск стал куда более точным и релевантным, невзирая на ежедневный рост числа страниц во Всемирной паутине.

Компания Яндекс — Технологии — Ранжирование и машинное обучение

Сейчас уже сложно придумать такой запрос, по которому находится меньше десятка страниц. А по многим запросам результатов поиска — миллионы. И со временем их становится всё больше — интернет очень быстро растет. Поэтому поисковой системе уже недостаточно просто показать все страницы со словами из запроса — чтобы найти подходящий ответ, человеку придется листать десятки страниц с результатами поиска. Поисковая система должна расположить найденные страницы в нужном порядке — так, чтобы сверху оказались наиболее подходящие пользователю (наиболее релевантные). Этот процесс — упорядочивание результатов поиска в соответствии с запросом пользователя — называется ранжированием. Именно ранжирование определяет качество поиска — то есть качество ответа на вопрос, заданный в поисковой строке.

Каждый день Яндекс отвечает на десятки миллионов запросов. Около четверти из них — неповторяющиеся. Поэтому невозможно написать для поисковой системы такую программу, в которой предусмотрен каждый запрос и для каждого запроса известен лучший ответ. Поисковая система должна уметь принимать решения самостоятельно, то есть сама выбирать из миллионов документов тот, который лучше всего отвечает пользователю. Для этого нужно научить ее обучаться.

Задача научить машину обучаться существует не только в поисковых технологиях. Без машинного обучения невозможно, например, распознавать рукописный текст или речь. Термин «машинное обучение» появился еще в 50-х годах. Этот термин обозначает попытку научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно. В результате машинного обучения компьютер может демонстрировать поведение, которое в него не было явно заложено.

Поисковая система должна научиться строить правило, которое определяет для каждого запроса, какая страница является хорошим ответом на него, а какая — нет. Для этого поисковая машина анализирует свойства веб-страниц и поисковых запросов. У всех страниц есть какие-то признаки. Некоторые из них — статические — связаны с самой страницей: например, количество ссылок на эту страницу в интернете. Некоторые признаки — динамические — связаны одновременно с запросом и страницей: например, присутствие в тексте страницы слов запроса, их количество и расположение.

У поискового запроса тоже есть свойства, например, геозависимость — это означает, что для хорошего ответа на этот запрос нужно учитывать регион, из которого он был задан. Свойства запроса и страницы, которые важны для ранжирования и которые можно измерить числами, называются факторами ранжирования. Для точного поиска важно учитывать очень много разных факторов.

Кроме факторов ранжирования поисковой системе необходимы образцы — запросы и страницы, которые люди считают подходящими ответами на эти запросы. Оценкой того, насколько та или иная страница подходит для ответа на тот или иной запрос, занимаются специалисты — асессоры. Они берут поисковые запросы и документы, которые поиск находит по этим запросам, и оценивают, насколько хорошо найденный документ отвечает на заданный запрос. Из запросов и хороших ответов составляется обучающая выборка. Она должна содержать самые разные запросы, причём в тех же пропорциях, в которых их задают пользователи. На обучающей выборке поисковая система устанавливает зависимость между страницами, которые асессоры посчитали релевантными запросам, и свойствами этих страниц. После этого она может подобрать оптимальную формулу ранжирования — которая показывает релевантные запросу сайты среди первых результатов поиска.

На примере это выглядит так. Допустим, мы хотим научить машину выбирать самые вкусные яблоки. Асессоры в этом случае получают ящик яблок, пробуют их все и раскладывают на две кучи, вкусные — в одну, невкусные — в другую. Из разных яблок составляется обучающая выборка. Машина пробовать яблоки не может, но она может проанализировать их свойства. Например, какого они размера, какого цвета, сколько сахара содержат, твердые или мягкие, с листиком или без. На обучающей выборке машина учится выбирать самые вкусные яблоки — с оптимальным сочетанием размера, цвета, кислоты и твердости. При этом могут возникать какие-то ошибки. Например, поскольку машина ничего не знает про червяков, среди выбранных яблок могут оказаться червивые. Чтобы ошибок было меньше, нужно учитывать больше признаков яблок.

В поисковых технологиях машинное обучение применяется с начала 2000-х годов. Разные поисковые системы используют разные модели. Одна из проблем, которые возникают при машинном обучении — переобучение. Переобучившаяся машина похожа на студента, который перезанимался — например, прочитал очень много книжек перед экзаменом по психологии. Он мало общается с живыми людьми и пытается объяснить простые поступки слишком сложными моделями поведения. И из-за этого поведение друзей для него всегда неожиданно.

Как это выглядит: когда компьютер оперирует большим количеством факторов (в нашем случае это — признаки страниц и запросов), а размер обучающей выборки (оценок асессоров) не очень велик, компьютер начинает искать и находить несуществующие закономерности. Например, среди всех оцененных страниц могут оказаться две с какой-то сложной комбинацией факторов, например, с размером 2 кб, фоном фиолетового цвета и текстом, который начинается на букву «я». И обе эти страницы окажутся релевантными запросу [яблоко]. Компьютер начнет считать эту случайную комбинацию факторов важным признаком релевантности запросу [яблоко]. При этом все важные документы про яблоки, которые такой комбинацией факторов не обладают, покажутся ему менее релевантными.

Для построения формулы ранжирования Яндекс использует собственный метод машинного обучения — Матрикснет. Он устойчив к переобучению.

Матрикснет – новое качество поиска Яндекса

Основная задача поисковой системы – дать ответ на вопрос пользователя. Когда пользователь задает запрос, поисковая система не обращается к каждому сайту в интернете, а ищет по базе известных ей страниц – поисковому индексу. Там она находит все страницы со словами из запроса. Ссылки на эти страницы пользователь и видит на страницах результатов поиска.

Сейчас вообще уже сложно придумать такой запрос, по которому находится меньше десятка страниц. А по многим запросам результатов поиска — миллионы. И со временем их становится все больше – интернет очень быстро растет. Поэтому поисковой системе уже недостаточно просто показать все страницы со словами из запроса – чтобы найти подходящий ответ, человеку придется листать десятки страниц с результатами поиска. Поисковая система должна расположить найденные страницы в нужном порядке – так, чтобы сверху оказались наиболее подходящие пользователю (наиболее релевантные).

Когда пользователь смотрит на найденные результаты, у него возникает ощущение – ему нашли и показали примерно то, что он хотел, или примерно не то. Это ощущение и описывает качество поиска с точки зрения пользователя – то есть насколько полезны оказались найденные результаты. У разных людей – разные ощущения, и их не всегда можно сформулировать четко. Для улучшения качества поиска нужно измерять и учитывать все эти ощущения в совокупности.

Упорядочивание результатов поиска в соответствии с запросом пользователя называется ранжированием. Именно ранжирование определяет качество поиска – то есть качество ответа на вопрос, заданный в поисковой строке.

Машинное обучение

Невозможно написать для поисковой системы программу, в которой предусмотрен каждый запрос, и для каждого запроса известен лучший ответ. Запросов к Яндексу очень много – более 100 миллионов каждый день, и примерно половина из них – неповторяющиеся. Поэтому поисковая система должна уметь принимать решения самостоятельно. Для этого ей нужно уметь обучаться.

Поисковая система должна научиться строить правило, которое определяет для каждого запроса, какая страница является хорошим ответом на него, а какая – нет. Для этого поисковая машина анализирует свойства веб-страниц и поисковых запросов. У всех страниц есть какие-то признаки. Некоторые из них – статические – связаны с самой страницей, например, количество ссылок на эту страницу в интернете. Некоторые признаки – динамические — связаны одновременно с запросом и страницей – например, присутствие в тексте страницы слов запроса, их количество и расположение. У поискового запроса тоже есть свойства, например, геозависимость — это означает, что для хорошего ответа на этот запрос нужно учитывать регион, из которого он был задан. Свойства запроса и страницы, которые важны для ранжирования и которые можно измерить числами, называются

факторами ранжирования. Для точного поиска важно учитывать очень много разных факторов.

Разные типы факторов ранжирования:

Кроме факторов ранжирования поисковой системе необходимы образцы – запросы и страницы, которые люди считают подходящими ответами на эти запросы. Оценкой того, насколько та или иная страница подходит для ответа на тот или иной запрос, занимаются специалисты – асессоры. Они берут поисковые запросы и документы, которые поиск находит по этим запросам, и оценивают, насколько хорошо найденный документ отвечает на заданный запрос. Из запросов и хороших ответов составляется обучающая выборка. Она должна содержать самые разные запросы, причем в тех же пропорциях, в которых их задают пользователи. На обучающей выборке поисковая система устанавливает зависимость между страницами, которые асессоры посчитали релевантными запросам, и свойствами этих страниц. После этого она может подобрать оптимальную формулу ранжирования – которая показывает релевантные запросу сайты среди первых результатов поиска.

На примере это выглядит так. Допустим, мы хотим научить машину выбирать самые вкусные яблоки. Асессоры в этом случае получают ящик яблок, пробуют их все и раскладывают на две кучи, вкусные — в одну, невкусные – в другую. Из разных яблок составляется обучающая выборка. Машина пробовать яблоки не может, но она может проанализировать их свойства. Например – какого они размера, какого цвета, сколько сахара содержат, твердые или мягкие, с листиком или без. На обучающей выборке машина учится выбирать самые вкусные яблоки – с оптимальным сочетанием размера, цвета, кислоты и твердости. При этом могут возникать какие-то ошибки. Например, поскольку машина ничего не знает про червяков, среди выбранных яблок могут оказаться червивые. Чтобы ошибок было меньше, нужно учитывать больше признаков яблок.

Матрикснет

Машинное обучение применяется в поисковых технологиях с начала 2000-х годов. Разные поисковые системы используют разные модели. Одна из проблем, которые возникают при машинном обучении – переобучение. Переобучившаяся машина похожа на студента, который перезанимался – например, прочитал очень много книжек перед экзаменом по психологии. Он мало общается с живыми людьми и пытается объяснить простые поступки слишком сложными моделями поведения. И из-за этого поведение друзей для него всегда неожиданно.

В 2009 году Яндекс внедрил новый метод машинного обучения – Матрикснет. Важная особенность этого метода – в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования – и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности.

Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится. Для примера можно представить себе формулу ранжирования в виде сложного механизма с большим количеством ручек. На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов.

Изменение одного параметра в разных формулах ранжирования:

Кроме того, Матрикснет автоматически выбирает разную чувствительность для разных диапазонов значений факторов ранжирования. Это в чем-то похоже на работу на аэродроме – когда среди постоянного шума взлетающих самолетов нужно слышать и голоса людей. Если заткнуть уши, то самолеты будут слышны, а голоса — нет. Сотрудники аэропорта работают в специальных наушниках, слабо чувствительных к громкому шуму – так можно услышать и самолеты, и голоса людей.

Ранжирование

Поскольку поисковая система работает с очень большими объемами информации, по каждому запросу ей нужно проверить признаки миллионов страниц, определить их релевантность и соответственно упорядочить. Так, чтобы сверху оказались более подходящие страницы. Чтобы проверить свойства всех страниц по очереди, нужно либо очень много серверов, которые могут быстро обработать информацию обо всех страницах, либо очень много времени – а поиск должен работать быстро, иначе пользователи не дождутся результатов. Матрикснет позволяет проверить очень много факторов за короткое время и без существенного увеличения вычислительных мощностей.

Поиск ведется одновременно на тысячах серверов. Каждый сервер ищет по своей части индекса и формирует список самых лучших результатов. В него гарантированно попадают все самые релевантные запросу страницы.

Дальше из этих списков составляется один общий, и страницы, попавшие туда, упорядочиваются по формуле ранжирования – той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учетом всех факторов и их комбинаций. Таким образом, наверху поисковой выдачи оказываются все самые релевантные сайты – и пользователь почти мгновенно получает ответ на свой вопрос.

Примерно так устроено ранжирование:

Яндекс матрикснет – Матрикснет в Рекламной сети Яндекса — Новости рекламных технологий Яндекса