Яндекс матрикснет: Матрикснет — Рекламная сеть. Справка

Содержание

что такое, за что отвечает технология Матрикснет

SEO WikiGoogleАлгоритмы ранжированияАнализ эффективностиВеб разработкаВнутренняя оптимизацияВредоносные технологииЗапросыИндексация сайтаИнтернет рекламаКонтекстная рекламаМета-тегиПоисковые системыПоисковые фильтрыПродвижение сайтовРанжированиеСервисыСоциальные сетиСпециалистыСсылочная оптимизацияСтруктура сайтаТекстовая оптимизацияТехническая оптимизацияЧерное SEOЯндекс

Оглавление

  1. Особенности

MatrixNet — алгоритм машинного обучения, с помощью которого Яндекс строит свою формулу ранжирования запросов.

Другие поисковые системы используют иные алгоритмы.

Поскольку в Интернете миллионы страниц сайтов, поисковые роботы обращаются не к этим страницам, а к специально созданной базе данных, или индексу. Обнаруженные в этой базе страницы показываются пользователю, когда тот вводит запрос.

В индексе постоянно добавляются новые и удаляются ненужные страницы, поэтому поисковики обновляют индекс, или производят апдейты, незаметные для пользователей. Но поисковая машина должна знать, по каким правилам обновляется индекс. Раньше за помещение релевантной страницы в индекс отвечал только асессор поисковой системы. Но из-за активного сайтостроения асессорам просто не хватает времени, чтобы проверить все найденные роботом страницы. Тогда, с появлением алгоритма обучения Matrixnet, часть функций асессоров была возложена на его плечи.

Matrixnet появился в 2009г. с внедрением нового алгоритма «Снежинск» с целью увеличить количество критериев ранжирования и улучшить поиск, в результате чего малозначимые поисковые критерии потеряли свою важность. Также благодаря этому алгоритму удалось настроить ранжирование сайта под определенные запросы, не испортив поиск по другим запросам. В формуле Matrixnet могут находиться тысячи значений, а ее точность позволяет отсеивать все несоответствующие страницы.

Количество просмотренных страниц постоянно растет, но благодаря алгоритму Matrixnet выдача Яндекса теперь более релевантная.

  • Яндекс
  • Поисковые системы
  • Алгоритмы ранжирования

Rookee — простой способ поднять сайт в ТОП поисковых систем

Начать продвижение

Базовая техническая оптимизация

12 090 ₽

Написание метатегов

от 2790 ₽

Наполнение сайта

Популярно

от 13 390 ₽/месяц

Настройка ссылочной стратегии

Популярно

1290 ₽

Настройка целей в Яндекс. Метрике

3590 ₽

Общий технический аудит

Популярно

3490 ₽

Оптимизация коммерческих факторов

4090 ₽

Оптимизация сайта под мобильные устройства

7990 ₽

Подбор запросов для продвижения

Популярно

от 3290 ₽

Присвоение региона продвижения

1290 ₽

Техническое задание на тексты

Популярно

от 1290 ₽

Увеличение кликабельности сайта в выдаче

3690 ₽

Установка Яндекс. Метрики

1490 ₽

SEO Wiki

Подписывайтесь на «Новости SEO рынка»

Нажимая кнопку, вы подтверждаете свое согласие на
обработку персональных данных.

Перейти в блог

что это, как работает и ранжирует сайты, плюсы и минусы

MatrixNet (Матрикснет) – это алгоритм машинного обучения, разработанный поисковой системой Яндекс для построения формулы ранжирования сайтов с учетом их авторитетности и формирования результатов выдачи. Внедрен алгоритм в 2009 году.

Особенностью данного метода машинного обучения является то, что это самообучающаяся система, учитывающая любые изменения факторов ранжирования и, как итог, вносящая коррективы в принципы своей работы.

Как работает Матрикснет?

Как ранжируются сайты с помощью Матрикснет?

Плюсы и минусы Матрикснет

Заключение

Как работает Матрикснет?

В компании Яндекс есть большой штат людей, которые лично смотрят сайты, попадающие в индекс, и дают им оценки. Таких сотрудников называют асессорами. Они смотрят поисковый запрос и сайт, найденный по нему, после чего оценивают, насколько он удобный для пользователей, релевантный и так далее. Вообще к основным оценочным критериям со стороны асессоров можно отнести:

  • Ресурс отвечает всем критериям, его контент релевантный запросу.
  • Контент релевантный запросу.
  • Контент сайта удовлетворяет ожидания посетителей.
  • Контент веб-ресурса частично отвечает запросу пользователя.
  • Контент нерелевантный запросу или материалы являются спамом.

Выписка учебных оценок должна быть максимально правильной, чтобы затем алгоритм MatrixNet имел возможность объективно и корректно оценивать и ранжировать другие сайты, которые еще не успели оценить асессоры или которые они вообще не оценят.

База данных поисковой системы регулярно пополняется новыми страницами или наоборот из нее удаляются несуществующие и ненужные документы. Но для корректного обновления индекса машине нужно прописать правила, по которым она будет работать.

Ранее релевантные страницы включали в индекс исключительно аналитики, но в наши дни сайты создаются немыслимыми темпами и люди просто бы не успевали проверять все страницы, которые находят роботы, если бы не был создан алгоритм машинного обучения.

Как ранжируются сайты с помощью Матрикснет?

Поисковику ежедневно приходится обрабатывать миллионы запросов, находить огромные объемы информации, определять релевантность и упорядочивать их так, чтобы выше всех остальных в результатах выдачи отображались самые полезные страницы.

Для проверки параметров каждой страницы по отдельности требуется огромное количество серверов, способных обработать информацию максимально быстро. В ином случае потребуется немыслимое количество времени. Такой поиск пользователям не нужен, потому что результата им придется ждать несколько дней, а то и недель. Ни тот, ни другой вариант не подходит для решения проблемы.

Благодаря алгоритму MatrixNet Яндекс способен проверять сотни факторов ранжирования чрезвычайно быстро, при этом нет необходимости привлекать дополнительные вычислительные мощности.

Поиск обеспечивает одновременной работой нескольких тысяч серверов. Каждый отдельно взятый сервер отвечает за свою часть индекса и составляет рейтинг самых полезных результатов, где оказываются страницы с наиболее релевантным запросам пользователей контентом.

Затем множество списков объединяются в один общий, после чего документы, находящиеся в данном списке, выставляются по своему рейтингу с применением сложнейшей формулы ранжирования, составленной алгоритмом на основе не одной сотни факторов и их комбинаций: поведение пользователей, ссылочный профиль и многое другое.

Вот таким образом Яндекс определяет самые релевантные страницы и выставляет их сверху результатов выдачи, благодаря чему интернет-пользователь быстро находит информацию, отвечающую его вопросу в поиске.

При этом машинное обучение не стоит на месте. В процессе любой выдачи MatrixNet чему-то обучается, что позволяет ему в последующие разы выдавать для интернет-пользователей все более релевантную информацию.

Если объяснить по простому. То чтобы экономить свои ресурсы и быстро ранжировать документы, применяется Матрикснет. Сложные формулы ранжирования не могут работать на больших объемах данных. Поэтому чтобы определить самые релевантные результаты. Поисковая система сначала определяет 1000 результатов, по первоначальным данным, так называемым FastRank — быстрые ранги. Это самые легкие факторы ранжирования, которые уже записаны к документам и поисковой системе не составляет труда определить эти результаты.

На втором этапе из этих 1000 результатов, поиск уже определяет и рассчитывает лучших 100 документ, по наиболее весомым и сложным факторам. А из этих 100 документов, уже выводит 30 результатов по другим еще более сложным факторам.

И к 30 лучшим результатам поиска уже применяется сложная формула Матрикснет и расставляет их в приоритете полезности для людей.

Формула эта постоянна меняется в зависимости от запроса. А обучается и подстраивается эта формула, благодаря оценкам асессоров.

Плюсы и минусы Матрикснет

В отличие от программ, используемых другими поисковыми машинами, MatrixNet от Яндекса способен формировать сложные формулы ранжирования с изобилием коэффициентов в них, влияющих на расчет авторитетности сайта. Вот почему вебмастеру, продвигающему свой проект, важно знать, как поисковик относится к ресурсу:

  • алгоритмом рассматриваются географические, демографические и социальные критерии;
  • для пользователя в приоритете выдача результатов, отвечающих его интересам;
  • если сайт посвящен узкой тематике, расчет его значимости может производиться по другой формуле;
  • формула регулярно дополняется новыми величинами и изменяется в зависимости от внедрения новых или усовершенствования старых факторов.

Но есть у данного машинного обучения и побочные эффекты. К недостаткам Матрикснет можно отнести то, что иногда алгоритм может хорошо оценить сайт с кривым контентом и он появится в выдаче.

Можно отметить и трудности в раскрутке молодых веб-ресурсов. Расчет авторитетности сайта очень сильно зависит от того, как давно был создан сайт. Еще один минус – в выдачу иногда попадают одностраничные или мелкие проекты без текстового контента, тогда пользователям труднее отыскать реально полезную информацию.

Заключение

Машинное обучение MatrixNet постоянно самообучается помимо того, что ей помогают асессоры. Аналитики предоставляют для алгоритма список релевантных, по их мнению, веб-сайтов, после чего он изучает их и затем самостоятельно выбирает тематические ресурсы.

Несмотря на то, что система еще несовершенна, поиск информации в Яндексе для рядовых пользователей за последние годы сделал огромный шаг вперед, стал удобнее, быстрее и, самое главное, точнее. И большой прогресс наблюдается именно после реализации Матрикснет.

Новый уровень качества поиска

Качество поиска

Задача поисковой системы, прежде всего, давать ответы на запросы пользователей. В ответ на каждый запрос поисковая система возвращает ссылки на веб-страницы, которые она находит в своем индексе — базе данных веб-страниц, известных этой конкретной поисковой системе. Таким образом, ответ на запрос пользователя приходит в виде результатов поиска — списка гиперссылок на веб-страницы, содержание которых соответствует этому запросу.

Вот как это работает:

В наши дни трудно найти поисковый запрос, который вернул бы менее дюжины результатов. Большинство поисковых запросов будут получать ссылки на миллионы веб-страниц. Количество ответов, потенциально соответствующих любому заданному поисковому запросу, растет все быстрее вместе с быстрым развитием Интернета. Не имеет особого смысла предоставлять пользователю все существующие потенциально совпадающие страницы — человеку придется просматривать десятки ресурсов, прежде чем появится что-то полезное. Вместо этого поисковая система ранжирует результаты поиска, помещая наиболее релевантные из них на первое место.

Глядя на эти результаты поиска, пользователь может чувствовать себя вполне удовлетворенным, не совсем удовлетворенным или совсем не удовлетворенным. Это субъективное ощущение получения (или не получения) того, что искали, описывает качество поиска с точки зрения пользователя — полезна ли эта информация для меня? Хитрость заключается в том, чтобы описать и измерить все эти субъективные отношения и принять во внимание всех. Качество поиска зависит от того, насколько хорошо ранжированы результаты поиска . Ранжирование означает сортировку результатов поиска таким образом, чтобы они соответствовали ожиданиям пользователя.

Машинное обучение

Невозможно построить идеальный алгоритм, который выдавал бы наилучший результат для каждого возможного запроса. Ежедневно поисковая система Яндекса обрабатывает почти 200 000 000 запросов. Почти половина этих запросов уникальны. Чтобы успешно справиться с этим грузом вопросов, поисковая система должна уметь принимать решения на основе предыдущего опыта, то есть учиться.

Машинное обучение необходимо не только в поисковых технологиях. Распознавание речи или текста, например, также невозможно без обучения машины. Термин «машинное обучение», придуманный в 50-х годах, в основном означает усилия, направленные на то, чтобы заставить компьютер выполнять задачи, естественные для человеческого поведения, но трудно разбиваемые на алгоритмические паттерны, «понимаемые» машинами. Обучающаяся машина — это машина, способная принимать собственные решения на основе входных алгоритмов, эмпирических данных и опыта.

Принятие решений, однако, является человеческим качеством, которым машина не может овладеть. Однако он может научиться создавать и применять правило, которое поможет решить , является ли конкретная веб-страница хорошим ответом на вопрос пользователя или нет.

Это правило основано на свойствах веб-страниц и запросах пользователей. Некоторые из этих свойств, такие как количество ссылок, ведущих на определенную страницу, являются статическими — описывающими веб-страницу, в то время как другие, например, есть ли на веб-странице слова, соответствующие поисковому запросу, сколько и где на странице, являются динамический — описывает как веб-страницу, так и поисковый запрос. Есть также свойства, специфичные только для поисковых запросов, например геолокация. Для поисковой системы это означает, что, чтобы дать хороший ответ на вопрос пользователя, она должна учитывать, откуда пришел этот вопрос.

Эти поддающиеся количественной оценке свойства веб-страниц и поисковых запросов называются факторами ранжирования . Эти факторы играют ключевую роль в выполнении точного поиска и принятии решения о том, какие результаты являются наиболее релевантными. Чтобы поисковая система выдавала релевантные результаты по запросу пользователя, она должна учитывать множество таких факторов.

;
Три типа факторов ранжирования:

Чтобы соответствовать ожиданиям пользователей, поисковой системе требуются образцы пользовательских запросов и соответствующие результаты, которые пользователи уже считают удовлетворительными. Оценщики — люди, которые решают, предлагает ли конкретная веб-страница «хороший» ответ на определенный поисковый запрос, — предоставляют свои оценки. Ряд поисковых ответов вместе с соответствующими запросами составляют обучающую выборку для поисковой системы, которая «научится находить» определенные зависимости между этими веб-страницами и их свойствами. Чтобы правдиво представить шаблоны поиска реальных пользователей, обучающая выборка должна включать в себя все виды поисковых запросов в той пропорции, в которой они встречаются в реальной жизни.

После того, как поисковая система нашла зависимости между веб-страницами в обучающей выборке и их свойствами, она может выбрать наилучшую формулу ранжирования для результатов поиска, которые она может предоставить по запросу конкретного пользователя, и вернуть наиболее релевантные из них поверх всех остальные.

Подумайте об обучении машины собирать самые вкусные яблоки. Сначала оценщики откусывают от каждого яблока в «дегустационном ящике» и кладут все вкусные яблоки справа, а все кислые — слева. В этом ящике находятся яблоки всех сортов в той же пропорции, в какой они, вероятно, будут расти в саду. Машина не может попробовать яблоки на вкус, но может анализировать их свойства, такие как размер, цвет, содержание сахара, твердость, наличие или отсутствие листа. Дегустационный ящик — это обучающий образец, который позволяет машине научиться выбирать яблоки с выигрышным сочетанием свойств: размера, цвета, сладости и твердости. Хотя ошибки неизбежны. Например, если у машины нет информации о личинках насекомых, в отобранных ею лучших яблоках может скрываться червяк. Чтобы свести к минимуму вероятность ошибки, машина должна учитывать максимальное количество свойств яблок.

MatrixNet

Машинное обучение внедряется в поисковые технологии с начала нулевых. Разные поисковые системы используют разные модели. Одна из проблем машинного обучения — переобучение . Алгоритм, который подгоняет свои данные, подобен студенту-второкурснику, который ставит себе диагноз по всем возможным симптомам, о которых он прочитал в своем руководстве. Еще не познакомившись с реальной практикой, он придумывает причины для естественных вещей, которые наблюдает.

Когда компьютер использует большое количество факторов (в нашем случае свойства веб-страниц и поисковых запросов) на относительно небольшой обучающей выборке («хорошие» результаты по оценке асессоров), он начинает находить несуществующие зависимости . Например, обучающая выборка может случайно включать две разные страницы, каждая из которых имеет одну и ту же конкретную комбинацию факторов, например, обе они имеют размер 2 КБ, с фиолетовым фоном и текстом, начинающимся с «А». И по чистой случайности обе эти страницы оказались релевантными поисковому запросу [яблоко]. Компьютер может счесть это случайное сочетание факторов необходимым для того, чтобы результат поиска соответствовал поисковому запросу [яблоко]. В то же время менее важными будут считаться все веб-страницы, предлагающие действительно актуальную и полезную информацию о яблоках, но лишенные именно этого сочетания факторов.

В 2009 году Яндекс запустил MatrixNet, новый метод машинного обучения. Ключевой особенностью этого метода является его устойчивость к переобучению, что позволяет поисковой системе Яндекса учитывать очень большое количество факторов при принятии решения о релевантности результатов поиска. Но теперь поисковой системе не нужно больше образцов результатов поиска, чтобы научиться отличать «хорошее» от «не очень хорошего». Это защищает систему от ошибок, находя несуществующие зависимости.

MatrixNet позволяет генерировать очень длинную и сложную формулу ранжирования, учитывающую множество различных факторов и их комбинаций. Альтернативные методы машинного обучения либо создают более простые формулы с использованием меньшего количества факторов, либо требуют большей обучающей выборки. MatrixNet строит формулу на основе десятков тысяч факторов, что значительно повышает релевантность результатов поиска.

Еще одной важной особенностью MatrixNet является возможность настройки формулы ранжирования для определенного класса поисковых запросов. Между прочим, настройка алгоритма ранжирования, скажем, для поиска музыки не повлияет на качество ранжирования для других типов запросов. Алгоритм ранжирования похож на сложный механизм с десятками кнопок, переключателей, рычагов и датчиков. Обычно любой поворот любого отдельного переключателя в механизме приводит к глобальным изменениям во всей машине. Однако MatrixNet позволяет настраивать определенные параметры для определенных классов запросов, не вызывая капитального ремонта всей системы.

Изменение одного параметра в разных формулах ранжирования:

Кроме того, MatrixNet может автоматически выбирать чувствительность для определенных диапазонов факторов ранжирования. Это как пытаться услышать чей-то шепот на аэродроме. Образно говоря, MatrixNet слышит и шепот, и звук приземляющихся или взлетающих самолетов.

Ранжирование

Для каждого запроса пользователя поисковая система должна оценивать свойства миллионов страниц, оценивать их релевантность и ранжировать их в соответствии с наиболее релевантными. Последовательное сканирование каждой страницы потребовало бы либо огромного количества серверов (которые могли бы обработать все эти страницы очень быстро), либо заняло бы много времени — но поисковик не может ждать. MatrixNet решает эту проблему, поскольку позволяет проверять веб-страницы по очень большому количеству факторов ранжирования без увеличения вычислительной мощности.

В ответ на каждый запрос более тысячи серверов одновременно выполняют поиск. Каждый сервер выполняет поиск в своей части индекса, чтобы получить список лучших результатов. Этот список гарантированно включает веб-страницы, наиболее релевантные данному запросу.

Следующим шагом является создание окончательного списка лучших результатов на основе всех этих списков наиболее релевантных страниц, созданных каждым сервером. Затем эти результаты ранжируются с использованием длинной и сложной формулы MatrixNet, которая позволяет учитывать множество факторов ранжирования и их комбинаций. Таким образом, наиболее релевантные веб-сайты попадают в топ результатов поиска, чтобы пользователь мог практически мгновенно получить ответ на свой вопрос.

Примерно так работает ранжирование:

Яндекс открывает технологию машинного обучения MatrixNet для исследователей CERN

Эта статья была опубликована 21 января 2013 года

Рассказ
Мартин СФП Брайант
История
Мартин СФП Брайант

Основатель

Мартин Брайант является основателем Big Revolution, где он помогает технологическим компаниям совершенствовать свои предложения и позиционирование, а также разрабатывает высококачественные продукты. (показать все) Мартин Брайант — основатель Big Revolution, где он помогает технологическим компаниям совершенствовать свои предложения и позиционирование, а также разрабатывает для них высококачественный и привлекательный контент. Ранее он занимал несколько должностей в TNW, в том числе главного редактора. Он покинул компанию в апреле 2016 года в пользу новых пастбищ.

Российский интернет-гигант «Яндекс» сегодня объявляет о расширении своего партнерства с европейской организацией ядерных исследований CERN. Соглашение позволит физикам ЦЕРН фильтровать большие наборы данных, чтобы находить чрезвычайно редкие события, используя технологию машинного обучения.

ЦЕРН будет использовать MatrixNet, поисковую технологию Яндекса, которая «обучается» улучшать результаты поиска на основе широкого спектра динамических факторов, связанных с веб-страницами, которые соответствуют любому конкретному запросу.

Яндекс начал сотрудничество с ЦЕРН в 2011 году, предложив исследовательской организации вычислительные ресурсы. В апреле прошлого года он запустил инструмент поиска для использования с данными Большого адронного коллайдера. В настоящее время Яндексу необходимо предоставить персонал для помощи CERN в его использовании. Однако разработка удобного интерфейса, который позволит физикам использовать его самостоятельно, продолжается.

Хотя ЦЕРН в настоящее время использует MatrixNet для работы с данными Большого адронного коллайдера, в частности, с анализом распада B-мезона (ничего страшного, если вы не знаете, что это такое, хотя Шелдон из «Теории большого взрыва», вероятно, посмеялся бы над вами), Яндекс говорит, что сделка поможет улучшить качество MatrixNet для всех ее пользователей благодаря опыту работы с обширными наборами данных, полученными в результате исследований Большого адронного коллайдера.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *