Матрикснет яндекса: Матрикснет — Рекламная сеть. Справка

Содержание

Яндекс рассказал студентам о Matrixnet и качестве поиска – статьи про интернет-маркетинг

Последнее обновление: 15 октября 2018 года

2807

Первого апреля в московской гостинице Radisson-SAS прошло мероприятие Яндекса под названием ‘Студень’ — ‘студенческий день’. Это была однодневная конференция, которая заняла целый рабочий день — с 10 утра до 7 вечера. Посетило её, по данным Яндекса, около 700 человек, представлявших более 50 ВУЗов. Студентов приглашали на конференцию с помощью почтовой рассылки, регистрация осуществлялась по приглашениям, распространенным через ВУЗы, другие каналы привлечения аудитории не использовались. Иначе, как отметил Андрей Себрант, пришли бы одни оптимизаторы.

Охота за головами

Последних, впрочем, хватает и среди студентов, так что на мероприятии они присутствовали, окружали с вопросами Садовского, фотографировали инструкцию для асессоров.

Отвечая на вопрос о цели мероприятия, топ-менеджеры Яндекса заявили, что пришло время стать более открытыми, что им хочется рассказать миру о технологиях и попрактиковаться они решили на студентах. Однако участники отметили, что многое было сделано для привлечения ‘свежей крови’ в компанию. Представители Яндекса рассказывали о его устройстве, организации производственных процессов, показывали фото нового офиса, проводили показательные собеседования, работали с желающими на стендах ‘Школы анализа данных’ и стажировок в Яндексе. Илья Сегалович, отвечая на вопросы редакции рассылки, отметил, что Яндексу для дальнейшего развития не хватает не столько денег, сколько людей, найти которых сложно, а выращивать — долго.

MatrixNet: машина умнее человека

Фёдор Романенко из отдела качества веб-поиска рассказал о том, что такое MatrixNet и что изменилось в Яндексе после ее введения.

MatrixNet — это технология машинного обучения , внедренная Яндексом в 2009 году. Этот алгоритм анализирует разультаты работы асессоров — сочетания запроса и страницы с оценкой того, насколько вторая релевантна первому. Получая такую выборку, машина выбирает связанные факторы и диапазоны их значений. Она пытается понять, почему человек оценил страницу релевантной запросу и применить выделенные факторы к другим страницам.

По словам Фёдора Романенко, MatrixNet оказалась крайне эффективна для повышения качества поиска, она стала обнаруживать факторы, о которых сотрудники поискового отдела сами не подозревали — «машина получилась умнее человека». Фёдор упомянул «400 основных факторов ранжирования«, судя по формулировке, есть еще некоторое количество неосновных.

Создателям алгоритма удалось решить проблему переобучения. Переобучение случалось с алгоритмом, который знал много потенциальных факторов ранжирования, но исследовал слишком мало документов, и в результате добавлял в формулу те признаки страницы, которые к релевантности имеют слабое отношение — например, первую букву заголовка или количество абзацев.

С переобучением борются кроссвалидацией — выборка запросов делится пополам, одна половина используется для обучения, вторая — для проверки.

С машинным обучением тесно связан еще один интригующий оптимизаторов феномен — асессоры. Фёдор пояснил, что выборка запросов для оценки релевантности страниц делается так, что запросы в ней встречаются с той же частотой, с которой присутствуют в общем потоке пользовательских запросов. Периодически «устаревшие» оценки выбрасываются и в базу добавляются новые. К данному моменту асессоры оценили

4 миллиона документов по 100 тыс. запросов. Уникальных запросов в день всего пользователями делается примерно в 50 раз больше.

По словам Фёдора Романенко, качество поиска Яндекса после введения MatrixNet резко улучшилось. Это оказалось заметно и по собственным внутренним метрикам Яндекса, и по росту поисковой доли, которую меряет Liveinternet. Даже ввод локальных факторов ранжирования в рамках «Арзамаса» не дал такого подъема качества поиска и «пользовательского счастья», как «Снежинск» с MatrixNet.

Как померить счастье пользователя?

Было рассказано и о том, как именно измеряется удовлетворенность пользователя выдачей. Учитываются такие факторы, как позиция первого клика (если он был сделан где-то внизу SERP, значит, первые места занимают нерелевантные сайты), доля некликнутых ссылок (не во всей выдаче, конечно), доля

длинных кликов (пользователь перешел на сайт, а потом вернулся на выдачу, так что Яндекс знает, сколько времени он провёл на сайте).

А вообще, то, насколько пользователь доволен поисковым результатом, обратно пропорционально тому, сколько времени и сил он потратил на его достижение. При этом языком запросов люди не пользуются, о грамотном составлении запроса не думают, так что Яндексу нужно самому учиться понимать, что хотел пользователь.

Известно, что пользователи обучаются при помощи поисковых подсказок — смотрят, что искали другие и используют чужие формулировки. Анализировать поведение пользователей помогает Яндекс.Бар, которых установлено уже больше 3 миллионов.

У Яндекса много метрик оценки качества поиска, они постоянно дорабатываются, появляются новые. «Если по какой-то метрике мы лучше всех, мы ее выбрасываем и разрабатываем такую, по которой мы хуже всех»

, — рассказал Фёдор.

Немного истории

В начале своего доклада Фёдор напомнил слушателям историю поисковых технологий. Упоминающиеся даты — это не год изобретения, а год удачного внедрения технологии популярными порталами.

  • 1994 год. Yahoo. Каталог сайтов, вместо поиска — сёрфинг по структурированному содержимому.
  • 1995 год, Altavista. Текстовое ранжирование по формуле tf * idf
  • 1997 год, Яндекс. Поиском занялись лингвисты, подключили морфологию русского языка. У Рамблера морфология появилась уже в 1996, но разбору подвергался только запрос, Яндекс учитывал морфологию и в текстах страниц.
  • У Google русская морфология появилась только в 2006 — можно для удобства считать именно этот год началом активной борьбы за рунетовский рынок поиска.
  • Рамблер обогнал Яндекс еще в одном отношении.
    Он в 1997 году начал использовать для ранжирования сайтов «внешние факторы» — статистику из счетчиков ТОП-100. У Яндекса в 1997 году появился тИЦ. По словам Фёдора, сейчас «один тИЦ не очень много определяет» в ранжировании страницы по запросу — используется гораздо больше факторов.
  • Google стал использовать PR («глобальную ссылочную авторитетность») с 1998 года. Google понимал Page Rank как измерение «вероятности того, что случайный сёрфер, блуждая по ссылкам, окажется на этой странице«.
Статья

Optimization-2010: выживут только ссылки, похожие на рекламу

#топ 100, #факторы ранжирования

Статья

Яндекс и ссылочные биржи: кто кого?

#факторы ранжирования, #ранжирование

Статья

Как отбирать сайты для гостевых публикаций

#метрика, #топ 100

Правда о том, зачем Яндексу англоязычный индекс

Среди многочисленных вопросов, заданных Яндексу участниками конференции, были, конечно, и посвященные соперничеству с Google. Например, такой: может ли Яндекс привлечь в ряды своих пользователей гиков, которые привыкли к Google и не хотят пользоваться отечественным поисковиком? Оказалось, что Яндекс думает об этих людях. Они — технические специалисты, ищут статьи соответствующей тематики, любят западные IT -ресурсы. Поэтому добавлены в англоязычный индекс были в первую очередь именно

такие сайты — которые отечественные ‘технари’ ищут в Google.

Был вопрос и по модной теме персонализации поиска. Представитель Яндекса справедливо заметил, что о персонализации последнее время много что говорят, но мало внедряют. В Яндексе сейчас «от самого пользователя результаты поиска не зависят», но в ближайшем будущем персонализация «будет постепенно появляться в умеренных количествах».

Теги: метрика, топ 100, поисковые подсказки, факторы ранжирования, ранжирование, язык запросов

Вам будет интересно

Пять способов оживить коммьюнити

#SMM, #поисковые подсказки, #язык запросов

События и тренды 2011 года

#вконтакте, #гугл аналитикс, #mozilla firefox

Яндекс и ссылочные биржи: кто кого?

#поисковые машины, #хостинг, #факторы ранжирования

Факторы ранжирования Яндекса и Google в 2018 году

#SEO, #аналитика, #позиции сайта

Убьет ли поисковый маркетинг Google Instant Search?

#браузер, #гугл аналитикс, #поисковые подсказки

Вебэффектор, Seopult, Rookee — о себе и о других

#SEO, #контекстная реклама, #продвижение сайтов

что это такое и зачем он нужен

Редакция блога Ingate

6 февраля 2019

Понимание метода машинного обучения «Матрикснет» дает возможность разобраться, каким образом нужно подбирать семантику и совершенствовать сайт, почему эффект оптимизации может проявиться не сразу или отсутствовать совсем.

Понимание метода машинного обучения «Матрикснет» дает возможность разобраться, каким образом нужно подбирать семантику и совершенствовать сайт, почему эффект оптимизации может проявиться не сразу или отсутствовать совсем.

Яндекс начал использовать новый алгоритм, учитывающий большое количество факторов ранжирования, в 2009 году. «Матрикснет» продемонстрировал выдающиеся способности к переобучению без опасности выявить несуществующие закономерности и увеличения количества асессорских оценок.

В качестве примера возьмем два устройства. Одно из них — машина с единственным рычагом, нажатие которого позволяет запустить или завершить процесс. Второе устройство — сложный механизм с множеством кнопок, с их помощью можно изменять параметры процесса. Именно таким является созданный Яндексом «Матрикснет». Этот алгоритм позволяет задавать отдельные настройки для каждого класса запросов.

1.png

1.png

Существует большое количество факторов, способных по отдельности или в комплексе определять тип сайта с учетом конкретных условий. Так, избыток продвигаемых запросов в тексте на странице результатов поиска может отрицательно отразиться на репутации ресурса в глазах поисковика. При этом если страница является каталогом товаров, большое количество повторений ключа оправданно и допустимо.

Запуск алгоритма «Матрикснет» дал возможность создать сложную и длинную формулу ранжирования, включающую десятки тысяч коэффициентов. Такой метод машинного обучения за короткое время проверяет множество параметров, причем для этого не приходится существенно увеличивать число обслуживающих серверов и другого оборудования.

Архитектура

Для формирования списка релевантных ответов поисковая система использует несколько серверов. Каждый из них создает собственный список сайтов, отвечающих запросу пользователя. Результаты работы всех серверов — множество потенциально релевантных страниц. Они проходят проверку по формуле, созданной «Матрикснетом». Ее основные составляющие: класс запроса, тип элемента и другие характеристики. Благодаря этой технологии на первых позициях выдачи оказываются наиболее релевантные ресурсы, следовательно, пользователь получает максимально полный ответ на интересующий вопрос.

Перед обработкой поискового запроса:

  • составляется список факторов — описание страницы, сайта, ссылок и запроса по множеству различных признаков;

  • происходит процесс обучения — «Матрикснет» определяет характеристики ресурсов, которые занимают высокие позиции в выдаче. На этом этапе выполняется асессорская оценка обучающей выборки, на основе которой и создается формула ранжирования.

Алгоритм поисковика быстро совершенствуется: в течение последних лет добавилась возможность прямого взаимодействия с веб-мастерами (переписка), разработаны четкие инструкции для асессоров, а также новые критерии оценки ресурсов.

Процесс обучения

Этот процесс базируется на схеме взаимодействия машины и человека. В качестве входных данных берется множество подобранных факторов, а также подготовленная асессорами обучающая выборка. В ней представлены не только высоко оцененные, но и нерелевантные запросу ресурсы.

2.png

2.png

Входные данные загружаются в систему. Затем она обрабатывает информацию, выделяет характеристики сайтов, которые имеют высокую и низкую релевантность. Данные факторы представлены в числовом виде, так что расчет формулы сводится к подбору коэффициентов. Это делается путем решения математической системы уравнений.

3.png

3.png

Таким же образом можно представить создание формулы ранжирования:

  • 20 и 29 — асессорские оценки;

  • 2 и 5 — показатели двух факторов одного ресурса;

  • 3 и 7 — характеристики другого сайта;

  • k1 и k2 — коэффициенты, отражающие вклад факторов в оценку релевантности.

На самом деле подходы к выявлению значимых факторов и алгоритмы их определения значительно сложнее. Названия: «метод Ньютона для классификации», gradient boosting и «регуляризация в листьях» — говорят сами за себя.

Сегодня вместо технологии «Матрикснет» Яндекс использует новый метод машинного обучения — CatBoost. Он дает более точные результаты в задачах по ранжированию, регрессии и классификации, а также учитывает данные в нечисловой форме. Пользоваться библиотекой машинного обучения CatBoost могут все желающие: она выложена в открытом доступе. Более подробную информацию о методе вы найдете в блоге Яндекса.

ЧИТАЙ ТАКЖЕ

Фильтры поисковой системы Google

Фильтры «Яндекса»

Календарь инфоповодов. Март 2019

(Рейтинг: 4.33, Голосов: 6)

У тебя есть нерешенные задачи?

В этом блоге мы делимся знаниями, но если у тебя есть серьезные цели, которые требуют вмешательства настоящих профи, сообщи! Перезвоним, расскажем, решим любые задачи из области digital

Находи клиентов. Быстрее!

Работаем по будням с 9:30 до 18:30. Заявки, отправленные в выходные, обрабатываем в первый рабочий день до 10:30.

Приложи файл или ТЗ

Нажимая кнопку, ты разрешаешь обработку персональных данных и соглашаешься с политикой конфиденциальности.

Работаем по будням с 9:30 до 18:30. Заявки, отправленные в выходные, обрабатываем в первый рабочий день до 10:30.

Нажимая кнопку, ты разрешаешь обработку персональных данных и соглашаешься с политикой конфиденциальности.

наверх

Яндекс с открытым исходным кодом CatBoost, библиотека машинного обучения, которую можно обучить с минимальными данными

Яндекс открыл исходный код CatBoost, библиотеки машинного обучения, которую можно обучить с минимальными данными

Лидер российского рынка поисковых систем Yandex Europe AG только что открыл исходный код новой библиотеки машинного обучения под названием CatBoost.

Компания является последней в длинной череде технологических гигантов, предлагающих платформу машинного обучения, следуя по стопам Google Inc. , Facebook Inc., Microsoft Corp. и других. Однако, в то время как эти компании сосредоточились на создании нейронных сетей, систем, смоделированных на человеческом мозге, которые можно научить распознавать определенные объекты, изображения и события, CatBoost описывается как библиотека «ускорения градиента».

Повышение градиента — это направление машинного обучения, целью которого является обучение систем при наличии ограниченного объема данных с особым упором на транзакционные или исторические данные, объяснил в своем блоге руководитель отдела машинного интеллекта и исследований Яндекса Миша Биленко. почта.

Этот метод «широко применяется для решения проблем, с которыми предприятия сталкиваются каждый день, таких как обнаружение мошенничества, прогнозирование вовлеченности клиентов и ранжирование рекомендуемых элементов, таких как самые популярные веб-страницы или наиболее релевантная реклама», — сказал Биленко. «Он обеспечивает очень точные результаты даже в ситуациях, когда данных относительно мало, в отличие от сред глубокого обучения, которым необходимо учиться на огромном количестве данных».

Согласно странице CatBoost на Github, платформа предназначена для «повышения градиента с открытым исходным кодом в деревьях решений». Другими словами, он предлагает способ классификации и ранжирования данных с помощью набора механизмов принятия решений, называемых «обучающимися», а не только одного. Результаты, полученные этими учащимися, взвешиваются и классифицируются на основе сильных и слабых сторон каждого из них. Идея состоит в том, что, объединяя несколько обучающихся, CatBoost может давать более точные результаты, чем фреймворки, использующие только одного обучающегося.

Биленко сказал, что Яндекс уже начал использовать CatBoost со своими сервисами. Эта структура заменяет старый алгоритм машинного обучения MatrixNet, который Яндекс использует для таких задач, как ранжирование в поисковых системах, прогнозы погоды, рекомендации и даже свой сервис Яндекс.Такси, который создается в рамках совместного предприятия стоимостью 3,72 миллиарда долларов с компанией Uber, занимающейся райдшерингом. Technologies Inc. Яндекс заявил, что переход от MatrixNet к CatBoost уже начался и должен быть завершен в течение нескольких месяцев.

Кроме того, Яндекс предоставляет CatBoost в качестве бесплатного сервиса по лицензии Apache Software Foundation, что означает, что каждый может использовать его в своих программах и сервисах.

Одной из организаций, которая уже воспользовалась этим предложением Яндекса, является CERN, расположенная в Швейцарии Европейская организация ядерных исследований, которая использует CatBoost для повышения производительности своих систем идентификации частиц. «Catboost повысит эффективность идентификации заряженных частиц, обеспечивая большую точность при выборе наших данных», — заявили Марианна Фонтана и Донал Хилл, координаторы проекта идентификации частиц в LHCb.

«Предоставив CatBoost в виде библиотеки с открытым исходным кодом, мы надеемся, что специалисты по данным и инженеры смогут без особых усилий получать высокоточные модели и в конечном итоге определить новый стандарт качества в машинном обучении», — сказал Биленко.

Изображение: Яндекс

Выразите свою поддержку нашей миссии, присоединившись к нашему Cube Club и Cube Event Community экспертов. Присоединяйтесь к сообществу, в которое входят генеральный директор Amazon Web Services и Amazon.com Энди Джасси, основатель и генеральный директор Dell Technologies Майкл Делл, генеральный директор Intel Пэт Гелсингер и многие другие знаменитости и эксперты.

Присоединяйтесь к нашему сообществу 

Нажмите здесь, чтобы присоединиться к бесплатному и открытому мероприятию Startup Showcase.

«TheCUBE является частью re:Invent, знаете ли, вы, ребята, действительно являетесь частью мероприятия и мы очень ценим ваше присутствие здесь и я знаю, что люди также ценят контент, который вы создаете», – Энди Джасси

Мы очень хотим услышать от вас, и мы с нетерпением ждем встречи с вами на мероприятии и в theCUBE Club.

Нажмите здесь, чтобы присоединиться к бесплатному и открытому мероприятию Startup Showcase.

Отличная справочная служба Яндекс Матрикснет по назначению без плагиата

Получить бесплатную смету

Это бесплатно и всегда будет.

Тип статьиЭссеНаучная работаКурсовая работаКейс-стадиРечьПрезентация в PowerPointПрезентация в PowerPoint с заметками докладчикаЭссе о приемеЭссе-приложениеКритика статьиОбзор статьиНаписание статьиОценкаБиблиографияБиографияОбзор книгиБизнес-планБизнес-предложениеОтвет модели BVCCapstone ProjectКейсКурсовая работаТворческое письмоДиссертация Глава ? Автореферат диссертации Глава ? ЗаключениеГлава диссертации? Обсуждение Диссертация Глава ? ГипотезаДиссертация Глава ? Введение Глава диссертации? ЛитератураДиссертация Глава ? МетодологияДиссертация Глава ? РезультатыДиссертационное предложениеВступительное эссеКурсовая работа GCSEОтвет GCSE Outline ОтветКурсовая работа GNVQКонтур GNVQПредложение о грантеIBРасширенное эссеИнтервьюЛабораторный отчетОбзор литературыОбзор модели LPCМаркетинговый планОбзор фильмаВопросы с несколькими вариантами ответовЧисленное решение проблемКонтурНабросок ответаПрезентация модели ответаПоэмаПрезентация PowerPoint с заметками спикераПрезентация PowerPointАнкетаРеакцияБумагаИсследовательский документКурсИсследованияПредложениеАнализЭссеКраткий ответWOTS Глава тезисов? Предыстория главы ? Заключение и будущие работы Глава диссертации? РеализацияТезис Глава? ВведениеТезис Глава ? Результаты и оценка. Глава ? Теория и постановка задачиТезисное предложениеБизнес и предпринимательствоАфроамериканские исследованияИскусство, театр и киноКоммуникационные стратегииЭкологические проблемыЭтикаМеждународные и общественные отношенияПраво и правовые вопросыРелигия и теологияМузыкаДругое

Страница — +

НВЛ