Компания Яндекс — Технологии — Матрикснет
В 2009 году Яндекс внедрил новый метод машинного обучения — Матрикснет. Важная особенность этого метода — в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования — и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности. Матрикснет — это метод машинного обучения, с помощью которого строится формула ранжирования Яндекса.С помощью Матрикснета можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Другие методы машинного обучения позволяют либо строить более простые формулы с меньшим количеством факторов, либо нуждаются в большей обучающей выборке. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать существенно более точный поиск.
Ещё одна важная особенность Матрикснета — в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится. Для примера можно представить себе формулу ранжирования в виде сложного механизма с большим количеством ручек. На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет даёт возможность настроить каждую ручку отдельно для своего класса запросов.
Кроме того, Матрикснет автоматически выбирает разную чувствительность для разных диапазонов значений факторов ранжирования. Это в чём-то похоже на работу на аэродроме — когда среди постоянного шума взлетающих самолётов нужно слышать и голоса людей. Если заткнуть уши, то самолёты будут слышны, а голоса — нет. Сотрудники аэропорта работают в специальных наушниках, слабо чувствительных к громкому шуму — так можно услышать и самолёты, и голоса людей.
Поскольку поисковая система работает с очень большими объёмами информации, по каждому запросу ей нужно проверить признаки миллионов страниц, определить их релевантность и соответственно упорядочить — так, чтобы сверху оказались более подходящие страницы. Чтобы проверить свойства всех страниц по очереди, нужно либо очень много серверов, которые могут быстро обработать информацию обо всех страницах, либо очень много времени — а поиск должен работать быстро, иначе пользователи не дождутся результатов. Матрикснет позволяет проверить очень много факторов за короткое время и без существенного увеличения вычислительных мощностей.
Поиск ведётся одновременно на тысячах серверов. Каждый сервер ищет по своей части индекса и формирует список самых лучших результатов. В него гарантированно попадают все самые релевантные запросу страницы.
Дальше из этих списков составляется один общий, и страницы, попавшие туда, упорядочиваются по формуле ранжирования — той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учётом всех факторов и их комбинаций. Таким образом, наверху поисковой выдачи оказываются все самые релевантные сайты — и пользователь почти мгновенно получает ответ на свой вопрос.
yandex.ru
что это, как работает и ранжирует сайты, плюсы и минусы
MatrixNet (Матрикснет) – это алгоритм машинного обучения, разработанный поисковой системой Яндекс для построения формулы ранжирования сайтов с учетом их авторитетности и формирования результатов выдачи. Внедрен алгоритм в 2009 году.
Особенностью данного метода машинного обучения является то, что это самообучающаяся система, учитывающая любые изменения факторов ранжирования и, как итог, вносящая коррективы в принципы своей работы.
Как работает Матрикснет?
В компании Яндекс есть большой штат людей, которые лично смотрят сайты, попадающие в индекс, и дают им оценки. Таких сотрудников называют асессорами. Они смотрят поисковый запрос и сайт, найденный по нему, после чего оценивают, насколько он удобный для пользователей, релевантный и так далее. Вообще к основным оценочным критериям со стороны асессоров можно отнести:
- Ресурс отвечает всем критериям, его контент релевантный запросу.
- Контент релевантный запросу.
- Контент сайта удовлетворяет ожидания посетителей.
- Контент веб-ресурса частично отвечает запросу пользователя.
- Контент нерелевантный запросу или материалы являются спамом.
Выписка учебных оценок должна быть максимально правильной, чтобы затем алгоритм MatrixNet имел возможность объективно и корректно оценивать и ранжировать другие сайты, которые еще не успели оценить асессоры или которые они вообще не оценят.
База данных поисковой системы регулярно пополняется новыми страницами или наоборот из нее удаляются несуществующие и ненужные документы. Но для корректного обновления индекса машине нужно прописать правила, по которым она будет работать.
Ранее релевантные страницы включали в индекс исключительно аналитики, но в наши дни сайты создаются немыслимыми темпами и люди просто бы не успевали проверять все страницы, которые находят роботы, если бы не был создан алгоритм машинного обучения.
Как ранжируются сайты с помощью Матрикснет?
Поисковику ежедневно приходится обрабатывать миллионы запросов, находить огромные объемы информации, определять релевантность и упорядочивать их так, чтобы выше всех остальных в результатах выдачи отображались самые полезные страницы.
Для проверки параметров каждой страницы по отдельности требуется огромное количество серверов, способных обработать информацию максимально быстро. В ином случае потребуется немыслимое количество времени. Такой поиск пользователям не нужен, потому что результата им придется ждать несколько дней, а то и недель. Ни тот, ни другой вариант не подходит для решения проблемы.
Благодаря алгоритму MatrixNet Яндекс способен проверять сотни факторов ранжирования чрезвычайно быстро, при этом нет необходимости привлекать дополнительные вычислительные мощности.
Поиск обеспечивает одновременной работой нескольких тысяч серверов. Каждый отдельно взятый сервер отвечает за свою часть индекса и составляет рейтинг самых полезных результатов, где оказываются страницы с наиболее релевантным запросам пользователей контентом.
Затем множество списков объединяются в один общий, после чего документы, находящиеся в данном списке, выставляются по своему рейтингу с применением сложнейшей формулы ранжирования, составленной алгоритмом на основе не одной сотни факторов и их комбинаций: поведение пользователей, ссылочный профиль и многое другое.
Вот таким образом Яндекс определяет самые релевантные страницы и выставляет их сверху результатов выдачи, благодаря чему интернет-пользователь быстро находит информацию, отвечающую его вопросу в поиске.
При этом машинное обучение не стоит на месте. В процессе любой выдачи MatrixNet чему-то обучается, что позволяет ему в последующие разы выдавать для интернет-пользователей все более релевантную информацию.
Если объяснить по простому. То чтобы экономить свои ресурсы и быстро ранжировать документы, применяется Матрикснет. Сложные формулы ранжирования не могут работать на больших объемах данных. Поэтому чтобы определить самые релевантные результаты. Поисковая система сначала определяет 1000 результатов, по первоначальным данным, так называемым FastRank — быстрые ранги. Это самые легкие факторы ранжирования, которые уже записаны к документам и поисковой системе не составляет труда определить эти результаты.
На втором этапе из этих 1000 результатов, поиск уже определяет и рассчитывает лучших 100 документ, по наиболее весомым и сложным факторам. А из этих 100 документов, уже выводит 30 результатов по другим еще более сложным факторам.
И к 30 лучшим результатам поиска уже применяется сложная формула Матрикснет и расставляет их в приоритете полезности для людей.
Формула эта постоянна меняется в зависимости от запроса. А обучается и подстраивается эта формула, благодаря оценкам асессоров.
Плюсы и минусы Матрикснет
В отличие от программ, используемых другими поисковыми машинами, MatrixNet от Яндекса способен формировать сложные формулы ранжирования с изобилием коэффициентов в них, влияющих на расчет авторитетности сайта. Вот почему вебмастеру, продвигающему свой проект, важно знать, как поисковик относится к ресурсу:
- алгоритмом рассматриваются географические, демографические и социальные критерии;
- для пользователя в приоритете выдача результатов, отвечающих его интересам;
- если сайт посвящен узкой тематике, расчет его значимости может производиться по другой формуле;
- формула регулярно дополняется новыми величинами и изменяется в зависимости от внедрения новых или усовершенствования старых факторов.
Но есть у данного машинного обучения и побочные эффекты. К недостаткам Матрикснет можно отнести то, что иногда алгоритм может хорошо оценить сайт с кривым контентом и он появится в выдаче.
Можно отметить и трудности в раскрутке молодых веб-ресурсов. Расчет авторитетности сайта очень сильно зависит от того, как давно был создан сайт. Еще один минус – в выдачу иногда попадают одностраничные или мелкие проекты без текстового контента, тогда пользователям труднее отыскать р
webmasterie.ru
что это такое и как работет
Мы увеличиваем посещаемость и позиции в выдаче. Вы получаете продажи и платите только за реальный результат, только за целевые переходы из поисковых систем
Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».
Подпишись на рассылку и получи книгу в подарок!
MatrixNet (Матрикснет) – это алгоритм машинного обучения, который учитывает критерии авторитетности сайта при формировании выдачи.
Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA
Матрикснет — это не просто алгоритм ранжирования. Это самообучающаяся система, которая учитывает все изменения. И если меняются, например, поведенческие факторы — система это учитывает, принимает к сведению и корректирует методы своей работы.
Принцип работы MatrixNet
В Яндексе есть должность асессора – человека, который в ручном режиме просматривает и оценивает веб-ресурсы. Суть их работы в следующем: используя связку «поисковой запрос + сайт», специалист дает ответ поисковой запрос. В частности, существует несколько вариантов оценки:
- Сайт соответствует всем критериям, контент релевантен запросу.
- Контент сайта релевантен запросу.
- Контент сайта соответствует ожиданию аудитории.
- Контент частично релевантен запросу.
- Контент не релевантен запросу, либо это спам.
Асессоры работают приблизительно по такой системе оценок. Однако везде есть субъективность.
Выборка учебных оценок должна быть корректной и достаточной, чтобы алгоритм машинного обучения смог самостоятельно выставлять рейтинг другим веб-ресурсам, не участвовавших в «учебной программе».
Как происходит сортировка сайтов в поисковой выдаче
Каждый день поисковая система обрабатывает огромное количество запросов. В ответ на каждый она отсортировывает выдачу в соответствии с алгоритмом ранжирования. Все данные: реакция пользователей, модель их поведения — остался ли на предложенном сайте, сколько провел времени и т. д. — анализируются. А затем учитываются системой Matrixnet.
С каждой выдачей алгоритм чему-то учится и выдает все более релевантный запросу контент.
Преимущества и недостатки Матрикснет
В отличие аналогичных программ, Matrixnet может образовывать длинные и сложные формулы ранжирования. Оптимизатор должен понимать, как его сайт воспринимается поисковой системой.
- Алгоритм учитывает демографические, социальные, географические показатели.
- Для каждого пользователя приоритет выдачи составляется с учетом его интересов.
- Формула расчета постоянно изменяется — добавляются новые показатели в виде коэффициентов
- Для узкой тематики может использоваться другая формула для расчета авторитетности.
Есть и недостатки. Например, в выдаче может оказаться сайт с неправильно оформленным контентом.
И продвигать молодой сайт сложнее. Возраст домена сильно влияет на расчет авторитетности.
Вместо действительно интересных пользователю порталов в выдаче могут оказаться одностраничники, или небольшие сайты без текстовых материалов.
Алгоритм Матрикснет постоянно совершенствуется. Ассесор предоставляет выборку порталов, которые релевантны определенным запросам. Алгоритм анализирует их, и дальше в состоянии сам отбирать тематические порталы. Процесс поиска информации в Яндексе стал более удобным и эффективным после введения MatrixNet.
semantica.in