Палех яндекс алгоритм: что это за поисковый алгоритм?

Новый алгоритм Палех от Яндекса

467 Время чтения: 2 мин 14.11.2017

Новый алгоритм Палех от Яндекса!

 

Яндекс всегда славился необычным неймингом, и его поисковые алгоритмы периодически обзаводятся интересными названиями. Эта участь постигла и алгоритм под названием «Палех», анонсированного и запущенного в работу под конец 2016 года. Его цель – ранжирование сайтов по запросу с учетом не только ключевых фраз, но и смыслового содержимого! Поисковые машины становятся умнее!

 

С чего все начиналось?

 

Как всем хорошо известно, все вводимые в строку поиска запросы делятся на 3 типа:

  1. высокочастотные;
  2. среднечастотные;
  3. низкочастотные (около 40 % общей массы).

Яндекс использует систему, которая предполагает одинаковый анализ запросов вне зависимости от их частотности. По этой причине случается такая вещь: результаты запроса будут отличаться по информативности и качеству в зависимости от типа запроса. Почему так?

Яндекс при формировании результатов «разбивает» введенные в поисковую строку слова на части, из которых:

  1. часть 1 – это высокочастотные запросы;
  2. часть 2 – это среднечастотные запросы, вводимые в строку гораздо реже, но они уже содержат уточняющие слова;
  3. часть 3 – это низкочастотные запросы, редко вводимые пользователями, как правило, имеют сложную структуру, но именно они занимают львиную долю запросов в Сети.

Результаты поиска по низкочастотным запросам до недавнего момента отличались довольно низкой релевантностью. Чтобы исправить эту оплошность, Яндекс ввел алгоритм Палех.

 

Для чего нужен Палех?

 

Когда мы просим Яндекс найти что-то и вводим в строку поиска достаточно популярную фразу, например, «купить ноутбук», то система выдает нам то, что мы ищем. Если же использовался низкочастотный запрос, к примеру, «купить черный компактный ноутбук с подсветкой клавиш в Ярославле», то тут начинались проблемы с действительно годными ресурсами в подборке, которые бы отвечали тому, что искалось.

Поскольку поисковик учитывал поведенческие факторы при составлении результата, то в случае с высокочастотными запросами это работало, а в других — не совсем. Это и привело к появлению Палеха.

 

Принцип работы

 

Технология нейронных сетей в поисковиках, о которой сейчас так много говорят, позволяет ориентироваться не на отдельные слова, фразы и поведенческие факторы, а, в буквальном смысле, позволяет поисковой машине понимать смысл того, что от нее требует пользователь.
Технология поиска в этом случае позволяет анализировать поисковые запросы и заголовки страниц ресурсов, предлагая подходящие сайты в выдаче. Но при этом сам поиск основывается на прошлом опыте, т.е. учитывается реакция пользователей на ранее подобранные результаты с принципом отбора «запрос-подзаголовок страницы». На основе этих данных поисковая машина и определяет, насколько подобранные web-страницы соответствуют запросу именно по смыслу.

 

А что на практике?

 

Кажущаяся сложность принципа работы Палеха на деле объясняется довольно просто. Допустим, вы ищете клип, в котором «танцует девочка в парике». Ранее, когда еще не было этого алгоритма, вы бы вряд ли нашли нужный вам клип. Палех же делает так, что после того как вы вводите запрос и нажмете «Найти», нужный вам клип окажется на первой позиции выдачи.

Напоследок стоит отметить, что ранее для выхода в ТОП можно было ограничиться наполнением сайта статьями с нужными ключевыми фразами и наращиванием ссылочной массы, то сейчас это, наоборот, нежелательно. Ключи могут присутствовать в единичных количествах, а сам контент должен быть интересным, информативным и написанным для людей, а не для поисковых машин.

Алгоритм «Палех». Или нейронные сети на службе Яндекса – Блог ITC MEDIA

Компания Яндекс совершенствует поисковые механизмы, распознающие запросы пользователей и определяющие, какие сайты и статьи наиболее полно соответствуют поступившим запросам. И самое последнее изобретение — алгоритм «Палех», анализирующий не только ключевые слова из запросов и сайтов, но и смысловую нагрузку выбранных статей. В основе алгоритма — нейронные сети.

«Хвост жар-птицы»

Ежедневно поисковые алгоритмы Яндекса дают ответы почти на 300 миллионов запросов. Многие запросы повторяются из минуты в минуту, другие являются уникальными. Уникальный запрос может никогда больше ни в этот день, ни в этом столетии не повториться. Но ежедневно Яндекс дает ответы на сто миллионов уникальных запросов.

График частотного распределения запросов любой поисковой системы, в частности, Яндекса, можно изобразить в виде птицы: есть клюв, шея, туловище и огромный хвост. Все наиболее часто встречающиеся запросы можно считать клювом. Подобных запросов (стандартных) много, но разнообразием они не отличаются. Запросы, менее популярные, но достаточно часто встречающиеся можно отнести к шее и туловищу птицы. А в хвосте «собираются» те запросы, которые имеют сравнительно низкую частоту. Но подобных запросов много, они могут отличаться деталями. И в итоге «хвост» образуется очень значительных размеров.

И разработка нового алгоритма позволит давать ответы на все самые сложные, экзотические вопросы вне зависимости от длины «хвоста». Почему алгоритм получил название «Палех»? Все очень просто. В российской сказочной культуре очень часто упоминается «жар-птица», имевшая дивный длинный хвост. А мастерицы Палеха на своих изделиях очень часто ее изображали во всей красе. И название появилось само собой.

Все запросы, составляющие хвост, достаточно разнообразны. Но и их можно определенным образом классифицировать и разделить на группы:

  • запросы от детей или лиц, не имеющих опыта обращения с «поисковиками». В таких запросах можно встретить обращения к Яндексу, как к живому человеку, просьбы — «покажи, пожалуйста»;
  • в отдельную группу можно выделить запросы, в которых пользователь четко не знает, что ему нужно, а может только приблизительно указать, что это было (например, американское кино про войны с империей). Можно выделить и другие типы запросов.

Запросы, составляющие «клюв» птицы однообразны. Они не представляют никакой сложности для поисковых роботов. И по таким запросам уже сформирована определенная статистика. Соответственно, при поступлении нового запроса из «клюва» нет необходимости опять пересматривать все необъятные просторы интернета. Ответ поступает в течение миллисекунд. Если же запрос относится к «хвосту», то никакой статистики подобных запросов у Яндекса нет и быть не может. И сложность заключается еще и в том, что запрос может быть сформулирован «коряво» или противоречиво. В такой ситуации определить, какие из найденных страниц будут релевантными запросу, очень непросто.
Но разработчики Яндекса полагают, что ни один из поступивших запросов не должен оставаться без ответа. И на помощь призваны нейронные сети, способствующие лучшему поиску.

Семантический вектор

Разработкой нейронных сетей или искусственного интеллекта и ученые, и программисты заинтересовались давно.

На эту тему и фильмы снимали фантастические, и писали докторские диссертации. С помощью нейронных сетей уже несколько десятилетий пытаются анализировать различную информацию: картинки, тексты, звуки и т. д. программы, работающие на основе нейронных сетей, учат выделять определенные предметы из общей массы, например, дома или машины. Если нейронной сети с определенной периодичностью демонстрировать некоторые изображения, соответствующие запросы и не соответствующие запросу, то через небольшой промежуток времени нейронная сеть уже самостоятельно из всего потока информации будет выделять нужную.

В случае с поиском ответа на запросы от пользователей Яндекса ситуация обстоит так же. Только вместо картинок нужно искать текст. Система так же обучается и использованием примеров, соответствующих и не соответствующих запросу. В данном случае обучение начинается с поиска соответствия между запросами пользователей и заголовками страниц, попавших в «поле зрения» поискового робота.

И нейронная сеть накапливает определенный багаж знаний, позволяющих выделять нужное.

Изначально, еще в те времена, когда компьютеры только появились, вся обрабатываемая информация для простоты переводилась в цифровое выражение. Каждому символу соответствовало некоторое двоичное выражение. И с того времени ничего не изменилось. По-прежнему, каждый набор знаков переводится в формат числа. И поисковые роботы в процессе поиска соответствий запросам от пользователей последовательно сравнивают коды запросов с кодами заголовков страниц. А для простоты поиска все заголовки страниц уже сгруппированы по триста единиц. И поисковое пространство Яндекса стало трехсот мерным.

И в получившейся трехсот мерной системе координат каждому веб-адресу соответствует определенная точка, к которой и обращается поисковая система при обработке запросов. Запрос пользователя в свою очередь так же переводится в числовое выражение и размещается в той же системе координат. И, если координаты запроса и веб-страницы совпали, то ответ на запрос пользователя найден.

Если же координаты не совпали полностью, то есть все основания предполагать, что веб-страницы с максимально близкими координатами так же содержат ответы на запрос пользователя.

У разработчиков такой метод поиска ответов на заданные вопросы получил название «семантического вектора». И этот вариант обработки запросов, как никакой другой актуален, если нужно найти ответ на запрос, относящийся к «длинному хвосту». Метод позволяет быстро и качественно обрабатывать запросы, имеющие низкую частотность, по которым не сформирована статистика. Главное достоинство метода: он позволяет формировать ответы на те запросы, которые сформулированы нечетко, содержат только приблизительные данные.

Компания Яндекс перешла на использование «семантического вектора» в своих поисковых алгоритмах уже несколько месяцев назад. Нейронные модели за это время прошли сложное обучение, научились преобразовывать полученные запросы в цепочки цифр и анализировать их положение в пространстве.

Развитие на этом не останавливается

Поисковая система Яндекс — не единственная, основанная на использовании семантических векторов. По такому же принципу работают Картинки. Пользователь может задать текстовый запрос и получить в качестве ответа некоторое изображение.

В дальнейших планах перевод на поиск по семантическим векторам не только заголовков сайтов и страниц, но и полностью текстов документов. В идеальном варианте пользователь будет получать ответы, полностью соответствующие его запросам. В планах разработчиков — вывод компьютерных нейронных сетей на один уровень с человеческим мозгом. Это позволит «читать мысли» и организовывать поиск соответствий даже тем запросам, которые еще не введены в поисковую строку.

Королев от Яндекса — пиар-ход, а не революция — Реальное время

09:00, 05.09.2017

Яндекс обновил свой поисковик и представил новый алгоритм ранжирования Королев. Презентация прошла с помпой, об этом написали практически все российские СМИ, а некоторые эксперты сочли этот шаг российских интернет-компаний революционным. Основное отличие от предыдущей версии в том, что новый алгоритм оценивает запросы не по ключевым словам, а по смыслу, причем — с высокой точностью за счет использования обучающихся нейронных сетей. «Реальному времени» удалось побеседовать с вице-президентом Российско-Тунисского делового совета и IT-предпринимателем Эльбрусом Латыповым, который доступным языком объяснил, как будет работать «Королев», как скоро пользователи заметят разницу в выдаваемых им результатах, будет ли Яндекс пионер и сколько людей сейчас обучает нейросеть российской компании.

«Хороший пиар-ход, больше направленный на привлечение доли рынка в России»

Эльбрус, как вы оцениваете Королев? Правда ли, что этот алгоритм можно назвать революционным?

Что касается революционности, то это скорее пиар-ход. В данном случае Яндекс перенимает опыт американских партнеров с намерением представить что-то «новое». На самом деле, если взять Google, аналогичный алгоритм под названием Hummingbird они разработали еще в 2013 году. Google в то время вел себя скромнее — они разработали алгоритм и представили его исключительно в профессиональной сфере, а не широкой публике.

Есть ли другие компании, кроме Google и Яндекса, которые используют нейросеть?

Нейронная сеть сегодня является модным словом. Машинное обучение, нейросети, искусственный интеллект — это своего рода тренд, за ним не будущее, а настоящее. В общем, объем информации в Интернете таков, что старые алгоритмы, разработанные Google и Яндексом, уже не подходят. Линейный анализ запросов больше не работает. Существует огромное количество информации, которая пересекается с другой информацией, и люди, которые используют поисковые системы, не получают должных результатов.

»Если взять Google, то аналогичный алгоритм под названием Hummingbird они разработали еще в 2013 году. паблик». Фото siteclinic. ru

Колибри, Королев, Палех – такая система эффективна, когда человек пытается найти, например, название фильма или песни, но у него есть только часть ее описания. В этом случае линейный поиск не работает. Здесь он должен работать как человеческий мозг – анализировать картинку в целом и давать ответ не линейный, а смысловой. Человеческий мозг оперирует значениями, а не какими-то конкретными линейными показателями.

Например, вы ищете фильм Армагеддон , но забыли его название. Вы пишете в поиске: «Люди летят на метеор и спасают Землю». Линейный поиск даст вам несколько отдельных ссылок на каждое слово или фразу. Он даст вам метеор, Землю, какие-то актуальные образы, но не сам фильм. Новый алгоритм ищет значение всех слов вместе, объединяет их и дает единственный правильный ответ, который нашел бы человеческий мозг.

Если вернуться к Гуглу и Яндексу, то после элементарного анализа получим тот же результат. У Google и Яндекса почти одинаковые алгоритмы. Мы их не знаем, мы их не видим — это тайна, но в итоге имеем почти тот же результат. Ни одна из систем не имеет какого-либо серьезного преимущества.

Естественно, яндекс более корректно работает с русскими запросами. Однако Google в последние годы также продвинулся в этой области и дает правильные ответы. Кстати, у Google релевантность выше, чем у Яндекса.

Поэтому тут сложно что-то сказать о революционности. Это хорошая презентация, хороший пиар-ход, но больше направленный на привлечение доли рынка на российском рынке.


«Яндекс привлек более миллиона волонтеров, которые обучают нейросети на личном опыте. Каждому человеку дается задание: что-то поискать и выбрать побольше правильных ответов. Так нейросеть учится». Фото inorehovo.ru

Нейронная сеть сейчас находится в процессе обучения. Как вы думаете, сколько времени потребуется, чтобы показать публике ощутимый результат?

Нейронная сеть — это алгоритм, который обучается с участием реальных людей. На сегодняшний день, по имеющейся у меня информации, Яндекс привлек более миллиона добровольцев, которые обучают нейросети на личном опыте. Каждому человеку дается задание: что-то поискать и выбрать побольше правильных ответов. Так учится нейронная сеть. Эффективность нейронной сети будет больше зависеть от алгоритмов, которые смогут обрабатывать информацию. По сути, это некий порог и подобие искусственного интеллекта, который будет анализировать сам, а пока ему нужно учиться у реальных людей.

Проблема в том, что человеческий мозг работает намного мощнее любой техники. Все существующие нейронные сети очень примитивны по сравнению с нашим мозгом. Сегодня сложно сказать, сколько времени потребуется, чтобы технология приблизилась к человеческим возможностям, к анализу и восприятию на том же уровне.

«По большому счету, нейронные сети и искусственный интеллект находятся в зачаточном состоянии»

Согласны ли вы с теми, кто говорит, что благодаря Королеву качество выдаваемого контента повысится? Когда пользователь это увидит?

Думаю теперь будет сложно заметить. Эта огромная работа будет заметна через несколько лет. Увидеть это «невооруженным глазом» пока невозможно. По большому счету, нейронные сети и искусственный интеллект находятся в зачаточном состоянии, и нас ждет огромная работа. Думаю, на данный момент еще и 10% работы не сделано.

Вы наверняка слышали об исследовании, результаты которого показывают, что женщины обычно формулируют свой запрос более подробно, а мужчины используют ключевые слова. Унифицирует ли алгоритм этот момент, как вы думаете?

Вы затронули интересный момент. Мы вернемся к уникальности человеческого мозга, к тому, что он по-разному функционирует у мужчин и женщин. Мужчины мыслят более конкретно, женщины – более абстрактно. Это огромная работа для искусственного интеллекта, а также для изучения нейронных сетей — различать мужчин и женщин.

«Перед разработчиками ИИ и нейронных сетей стоит огромная задача — не только различать желания пользователей, но и распознавать их пол. Задача очень интересная». Фото iab.ru

Даже если взять одинаковую просьбу женщины и мужчины, необходимый результат для каждого может быть очень разным, хотя и тот, и другой будут использовать одинаковый набор слов. Они хотят другого результата, понимаете? Это другая история. Именно поэтому перед разработчиками ИИ и нейросетей стоит огромная задача — не только различать желания пользователей, но и распознавать их пол. Задача очень интересная.

Правда ли, что продвижение сайта усложнится из-за Короева? Что будет с методами SEO-копирайтинга?

Я думаю, SEO не изменится. Сейчас идет противостояние — есть те, кто продвигает сайты, а есть сами поисковые системы. Они стараются оптимизировать поиск и выводить свои сайты в топ, но во многих случаях это не совсем справедливо. В свою очередь поисковые системы с этим борются. Следует также иметь в виду, что они оба зарабатывают на этом деньги.

Возможно, мы увидим другой способ продвижения. Возможно, в итоге, чтобы оптимизировать поиск и сделать его справедливым для всех игроков, будут задействованы именно нейронные сети и ИИ. Я не думаю, что правила игры существенно изменятся, скорее будут использоваться новые механизмы, потому что это прежде всего бизнес.

Лина Саримова

Как ИИ повлияет на контент?

1. Появление поисковых систем

Системы поисковых систем были разработаны в соответствии с ростом количества материалов в Интернете. Чем больше документов находили поисковые системы, тем более сложные алгоритмы использовались. Сначала поисковые системы с искусственным интеллектом были предназначены только для выполнения поиска по страницам, затем они решали простые задачи, а теперь отвечали на всестороннюю помощь пользователей.

Поисковые системы прошли следующие этапы развития:

  • Наивный шаблон поиска – появился поиск по словам, также называемый «инвертированный индекс». Также пользователи должны учитывать частоту слов и ранжирование страниц
  • Ссылочное ранжирование – с увеличением количества страниц возникла необходимость ранжирования страниц, и ранжирование важности страниц было привязано к системам ранжирования. Рейтинг важности страниц зависел от качества и количества ссылок на эти страницы.
  • Машинное обучение — сначала система под названием «Матрикснет» использовалась для Яндекс. В 2017 году Яндекс начал использовать новую систему машинного обучения под названием Cat Boost. Cat Boost дает более точный рейтинг.
Искусственный интеллект (ИИ)
2. Искусственный интеллект

ИИ основан на разработках машинного обучения. О разработках в этом направлении известно с 2013 года, когда были проведены первые исследования в области семантического анализа и возможностей системы Word2Vec. Google создала самообучающуюся систему с ИИ — Rank Brain — на основе этой программы. Система была запущена в 2015 году. Целью этого алгоритма было уловить смысл текстов путем поиска связей между отдельными словами.

Rank Brain — это часть алгоритма Hummingbird в Google. Когда эта система находит незнакомые слова, она ищет подсказки и синонимы по запросу. Найденные аналогии становятся основой для фильтрации данных. В настоящее время Rank Brain является одним из трех наиболее важных критериев оценки страницы вместе со ссылками и текстом.

В 2016 году Яндекс объявил о запуске нового алгоритма «Палех» на основе нейронных связей. Этот алгоритм позволяет осуществлять поиск страниц, соответствующих запросам как по ключевым словам, так и по смыслу. «Палех» анализирует заголовки страниц и находит скрытые смысловые связи.

Еще один алгоритм «Королев» был представлен в 2017 году. В отличие от «Палеха», «Королев» сравнивает семантические векторы запросов и целых страниц. Ранее для этой цели использовались заголовки. Кроме того, кроме нейронных связей, используется машинное обучение, основанное на поведении человека. Таким образом, миллионы пользователей выступают в роли оценщиков. Все алгоритмы имеют аналогичную процедуру с 1 задачей, которая предназначена для улучшения понимания сложных словесных запросов.

3. Как изменилась SEO-оптимизация

Проникновение ИИ коренным образом изменило результаты запросов и правила SEO. Использование ИИ связано с определенными преимуществами:

  • Увеличилась точность вывода по нечастым и низкочастотным запросам – поисковики понимают простой человеческий язык;
  • В выдаче преобладают более качественные ресурсы – фильтруется спам и переоптимизация по ключевым словам;
  • SEO-тексты не обязательны — учитываются только потребности пользователей. LSI-копирайтинг используется для оптимизации текстов под запросы пользователей.
  • Можно выполнить деоптимизацию поисковой системы, чтобы удалить ссылки, связанные с определенным термином.

Несмотря на многочисленные преимущества, связанные с ИИ, есть и определенные недостатки:

  • Нечеткие результаты поиска — робот не может точно определить нужный контекст, если значение многозначно. Поэтому предлагает несколько вариантов.
  • Непрозрачная система ранжирования – пользователь не может указать область поиска, подбирая словосочетания, так как поисковые системы выбирают то, что считают нужным.
  • Нетематические ресурсы в выдаче — часто в результатах поиска появляются сайты, не относящиеся к теме поиска, или в выдаче может быть найден некачественный контент.
5. ИИ можно использовать для оптимизации контент-стратегий

Менеджеры по контент-маркетингу сталкиваются с проблемами, связанными с принятием решения о том, какой тип контента использовать для привлечения клиентов и как побудить клиентов от этапа знакомства с брендом до совершения покупок. Once может разработать подробные профили клиентов и удовлетворить потребности целевой аудитории. Иногда ИИ может объяснить, что нужно клиентам, даже если они не могут сформулировать свои настоящие потребности. Анализируя профили в социальных сетях и отслеживая обсуждения в тематических блогах (форумах), ИИ может понять потребности клиентов. Многие известные бренды используют эти инструменты искусственного интеллекта, чтобы оправдать ожидания клиентов. Бренды могут создавать образы клиентов, изучая SEO-результаты целевой аудитории с помощью инструмента SEO-мониторинга. Кроме того, ИИ помогает решить эти проблемы, поскольку он позволяет идентифицировать личность покупателя с помощью анализа трафика, поведения в социальных сетях и взаимодействиях по электронной почте.

6. Новый взгляд на контент

ИИ позволяет создавать гиперперсонализированный контент со ссылкой на профили целевой аудитории. Это будет новая эра контент-маркетинга, поскольку он предлагает мощные инструменты для более эффективного управления удовлетворенностью клиентов. Раньше это было невозможно. Старомодные приемы больше не работают, и маркетологи должны воспользоваться преимуществами новых алгоритмов для создания потрясающего контента и маркетинговых стратегий.

7. Заключительные мысли

Имея в виду недавние изменения в подходах к поисковой оптимизации, маркетологи смогут разрабатывать более подробные маркетинговые стратегии, используя различные инструменты и устройства управления контентом. ИИ позволяет маркетологам сосредоточиться на потребностях клиентов на основе факторов ранжирования.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *