Алгоритм Палех — искусственный интеллект в поиске
Уже несколько лет Яндекс при ранжировании сайтов использует Матрикснет — метод машинного обучения, опирающийся на большое количество факторов: текстовые, коммерческие, поведенческие и т.д. Количество факторов каждый год растет и на данный момент составляет более 1500.
В начале ноября 2016 года Яндекс представил новый поисковый алгоритм Палех, помогающий основному алгоритму Матрикснет работать с редкими низкочастотными запросами.
По статистике Яндекса около 40% из всех вводимых пользователями запросов являются низкочастотными, даже уникальными. График распределения частотностей запросов чаще всего представляют в виде птицы, где клюв олицетворяет более общие высокочастотные запросы, процент которых относительно всех запросов низок. Далее туловище представляет собой среднечастотные запросы из Клюва со словами-уточнениями, и наконец, Хвост – очень низкочастотные редкие запросы.
В связи с тем, что низкочастотных запросов очень много, то получить наиболее релевантный ответ с помощью Матрикснета становится очень сложно. Подсказок от пользователей в виде поведенческих факторов нет, т.к. запросы сами по себе могут быть уникальны, поэтому для построения наиболее отвечающей пользовательскому вопросу выдачи Яндекс решил научиться понимать смысловое соответствие между запросом и документом.
Решением поставленной задачи для Яндекса стал еще один метод машинного обучения: ИНС – искусственные нейронные сети.
Как работает новый алгоритм Палех?
Технология ИНС уже испытана в распознавании картинок или музыки. В случае поисковых систем речь пойдет о понимании смысла текстов.
Суть данного метода в том, чтобы система обучалась на положительных и отрицательных примерах поисковой системы, накопленных ранее, по наиболее популярным запросам, сопоставляла пользовательские запросы и заголовки документов и находила наиболее релевантный ответ.
Для сопоставления системой запросов и заголовков их переводят в специальное 300-мерное пространство, где каждому запросу и заголовку соответствует группа из 300 чисел. Таким образом, выделяется семантический вектор.
Когда пользователь вводит длинный запрос в поисковую строку, Палех переводит его в 300-мерное пространство на соответствующих параллелях и показывает документ, наиболее подходящий к этому запросу в построенной системе координат.
На данный момент обрабатывается не весь текст ресурса, а только заголовки, но Яндекс говорит, что в планах работа со всем текстом. Это позволит еще лучше понимать, удовлетворяет ли требованиям пользователя сайт, и формировать максимально релевантные результаты поиска.
Примеры работы алгоритма Палех
Работу нового алгоритма Яндекса Палех можно оценить только на низкочастотных запросах, так как на ВЧ запросах приоритетнее другие факторы ранжирования.
При запросе «фильм в котором человек родил и зачал себя сам» мы получим в ответ информацию о фильме «Патруль времени» 2014 года, а не сайты с ответами на вопросы на форумах.
Что делать коммерческим сайтам с Палехом?
Новый алгоритм Яндекса практически никак не влияет на ранжирование интернет-магазинов и сайтов услуг, так как Палех направлен в первую очередь на ресурсы с большим текстовым контентом. Для продвижения сайтов продажи услуг и товаров гораздо важнее цены, юзабилити, дизайн, коммерческие и поведенческие факторы.
Но следует учитывать, что новый алгоритм влияет на коммерческие контент-проекты, такие как, например, строительные порталы, где публикуется большое количество статей строительной тематики. В общем, этот алгоритм внедрен, чтобы улучшить качество поиска для низкочастотных запросов с «большим хвостом». Преимущества получают качественные информационные сайты.
Вместо заключения
Особенности нового алгоритма года Палех:
- Большое количество вхождений слов, связанных с запросом по смыслу повышает значение нового фактора;
- По информации Яндекса: Палех пока работает только с title страниц, а не с самим содержимым;
- Качество алгоритма измеряется поведенческими метриками пользовательской удовлетворенности.
- Влияние на ранжирование коммерческих сайтов в настоящее время алгоритм Палех не имеет, но это очередной повод задуматься о способах продвижения — что пора забыть времена, когда на позицию сайта можно было повлиять только ссылками или количеством ключей в тексте.
Современные реалии требуют создания удобных сайтов для людей, написание качественного контента, который будет полезен пользователям.
Алгоритм Яндекса с нейроными сетями
Яндекс запустил новый «умный» алгоритм по поиску веб-страниц. В нем задействованы не только ключевые слова, но и смысл запроса, набранного пользователем.
Сопоставлением смысла запроса и соответствующего документа занимается поисковая модель, основанная на нейронных сетях. Расскажем немного о том, как она работает.
Точный поиск по «длинным хвостам»
Алгоритм на нейронных сетях позволяет поиску Яндекса более точно отвечать на сложные, но довольно частые запросы из «длинного хвоста».
Ежедневно поисковик Яндекс отвечает на более, чем 250 миллионов запросов. Многие из них уникальны и не повторяются. Но самое удивительное, что такие низкочастотные запросы составляют весомую часть всего поискового потока. В то время как список самых популярных запросов ограничен, хотя и встречаются они в поисковой строке Яндекса чаще.
Другими словами, пользователи предпочитают искать нечто конкретное, уточненное и «со смыслом», оставляя абстрактные запросы в прошлом. Есть несколько категорий пользователей, которые любят задавать сложные запросы из «длинного хвоста». К примеру, дети или взрослые, которые запамятовали название книги, либо фильма (вводят в строку поиска фразу, либо фрагмент кинофильма).
Безусловно, что поисковику сложнее воспринимать запросы из «длинного хвоста». И введенные в длинном запросе слова могут просто запутать поисковую систему, которая выдаст совершенно не тот по значению результат.
Для этого Яндексом и были привлечены нейронные сети.
Как работают нейронные сети и что такое семантический вектор?
Нейронная сеть по принципу искусственного интеллекта легко обучается распознаванию звука, текстовой информации и изображений. Нейросеть в состоянии различить положительные и отрицательные результаты, найти нужные объекты и дифференцировать их по заданным признакам.
В случае с поисковым алгоритмом речь идет о текстовой информации, так называемой паре, состоящей из запроса и заголовка веб-страниц. Примеры их соответствия подбираются с помощью статистики, накопленной в поиске. Так, нейросеть обучается, находя смысловые соответствия между парами.
Поскольку компьютерной системе более понятен язык цифр, специалисты Яндекс научили нейрсеть переводить множество заголовков и веб-страниц в числовые значения. В итоге вся документация базы данных Яндекса получила координаты в трехсотмерном пространстве.
Провести подобные расчеты для человека практически невозможно. Поэтому не будем углубляться в решение этой задачи. Уточним только, что и поисковой запрос, и веб-страница могут располагаться в одном пространстве координат. И чем ближе они будут друг к другу, тем точнее найденная страница соответствует запросу.
Подобный способ обработки поискового запроса и его совпадение с ответами в Яндексе назвали семантическим вектором.
Такой подход идеален для запросов из «длинного хвоста». Поскольку семантические векторы подыскивают ответы на самые сложные запросы. Мало того, изображение запроса и веб-страницы в виде вектора в трёхсотмерном пространстве, позволяет получить самый точный результат выдачи. В него попадают и те веб-страницы, которые не связаны с запросом общими словами, а только лишь смыслом.
Семантический вектор используется не только Яндексом, но и сервисом «Картинки», когда находит в интернет-сети изображения, отвечающие введенному текстовому запросу.
У технологии семантического вектора большое будущее. Смысловой «умный» поиск в интернете сегодня намного актуальнее, чем бессмысленные запросы-роботы. Поэтому и от веб-ресурсов требуют содержательного и познавательного контента.
Обучайтесь со смыслом, узнавайте новое с GUSAROV.
04.11.2018
СПАСИБО, ЧТО ДОВЕРИЛИСЬ НАМ!
Мы вас не подведём! Наш менеджер перезвонит в течение часа, чтобы обсудить всё, что вам интересно. Не бойтесь спрашивать, мы не кусаемся!
СПАСИБО, ЧТО ДОВЕРИЛИСЬ НАМ!
Мы вас не подведём! Наш менеджер перезвонит в течение часа, чтобы обсудить всё, что вам интересно. Не бойтесь спрашивать, мы не кусаемся!
СПАСИБО, ЧТО ДОВЕРИЛИСЬ НАМ!
Мы вас не подведём! Наш менеджер перезвонит в течение часа, чтобы обсудить всё, что вам интересно. Не бойтесь
спрашивать, мы не кусаемся!
Беларусь
Россия
Другие
Новый алгоритм поиска Яндекса на основе искусственного интеллекта Палех
Недавно Яндекс объявил о своем новом алгоритме поиска Палех, который улучшает то, как Яндекс понимает значение каждого поискового запроса, используя свои глубокие нейронные сети в качестве фактора ранжирования среди других. В конечном счете, новый алгоритм помогает Яндексу улучшить результаты поиска по всем направлениям, но особенно для поисковых запросов с длинным хвостом.
Как известно большинству читателей State of Digital, поисковые запросы с длинным хвостом классифицируются по запросам, которые поисковая машина обрабатывает очень редко. Существует корреляция между редкостью запроса и его длиной. Как правило, чем короче запрос, тем он чаще встречается, а чем длиннее, тем реже. Такие запросы часто бывают разговорными и подробно описывают что-то, когда пользователь не знает точную фразу или слово, но пытается объяснить поисковику. Например, написать описание фильма, не зная названия, например, «фильм о парне, выращивающем картошку на какой-то планете».
Эти длинные запросы заставляют поисковые системы полностью понять цель запроса, чтобы предлагать наиболее релевантные результаты поиска. Поисковые системы более легко предлагают результаты поиска на основе сходства слов в запросе схожести и релевантности слов в результатах. Проблема запросов с более длинным хвостом заключается в том, что они не так легко совпадают для релевантных синонимов слов, и по этим редким запросам гораздо меньше данных.
Однако запросы с длинным хвостом и результаты поиска можно лучше всего сопоставить, найдя и соединив сходство значений. Яндекс решил внедрить продвинутый искусственный интеллект, чтобы улучшить поиск совпадений между запросами и результатами, лучше понимая цель запроса, а не сходство самих слов.
Как компания, специализирующаяся на машинном обучении, Яндекс исторически внедрял машинное обучение в 70% своих продуктов и услуг, начиная с поиска. Совсем недавно с Палехом поисковая команда Яндекса научила свои нейронные сети видеть связи между запросом и документом, даже если они не содержат общих слов.
Этот новый алгоритм был назван в честь российского города Палех из-за жар-птицы на его гербе с длинным хвостом. Яндекс назвал все свои поисковые алгоритмы именами городов России и выбрал Палех, основываясь на символе длинного хвоста и влиянии этого алгоритма на запросы с длинным хвостом.
В этом блоге рассказывается о динамике машинного обучения, лежащей в основе новейшего поискового алгоритма Яндекса Палех, и о том, что отличает его от других способов использования глубоких нейронных сетей для ранжирования веб-поиска.
Что такое машинное обучение? Что такое нейронные сети? Машинное обучение — это именно то, что оно самообучается, создавая связи из шаблонов входных данных. Как говорит Яндекс, «машина, которая может учиться, — это машина, которая может принимать собственные решения на основе входных алгоритмов, эмпирических данных и опыта». Как только цель поставлена, модели обучаются для достижения этой цели на основе обучающих образцов. Машина учится создавать правила, которые со временем улучшаются по мере того, как она обрабатывает больше данных. На результаты алгоритма влияют миллионы факторов, которые оказываются гораздо более сложными, чем способность человека обрабатывать или программировать.
Нейронные сети — это метод машинного обучения, созданный по образцу нейронов в человеческом мозгу и предназначенный для решения задач, подобных человеческому мозгу. Нейронные сети основаны на реальных числах и могут быть обучены находить отношения в наборе данных после обработки входных данных и распознавания закономерностей. Их можно обучить анализировать изображения, звук или текст, и они применяются для различных целей, таких как распознавание изображений, перевод текста или ранжирование в веб-поиске.
Как Яндекс научил свои нейросети лучше понимать запросы? Яндекс обучил свои нейронные сети с помощью модели семантического отображения, которая сводит информацию к числам, группирует их на основе значения содержания, проецирует группы на семантическую карту, а затем находит совпадения между группами на основе их близости на карте. Как правило, семантическое отображение находит связи между двумя разными объектами, помещая их в одно и то же семантическое пространство и подтверждая их связи на основе их близости друг к другу. В этом случае ранжирования веб-страниц два объекта, которые проверяются на наличие соединений, — это поисковые запросы и документы или заголовки просканированных страниц.
Прежде чем что-то случилось с сопоставлением, поисковая группа сначала должна была обучить алгоритм, предоставив ему примеры пар запросов и соответствующих заголовков веб-страниц. Этот обучающий набор предоставил нейронным сетям базовое понимание связей, которые поисковая команда Яндекса хотела установить.
Поскольку компьютеры лучше работают с числами, а не со словами, Яндекс затем преобразовал миллиарды поисковых запросов и просканированных страниц в числа. Затем эти числа нужно было организовать так, чтобы за ними стоял смысл. Произвольный набор слов не имеет реального понятия или значения. Только очень определенные наборы слов имеют смысл вместе, и существуют миллионы возможных контекстов. Алгоритм находит небольшие подмножества слов, заполненных по смыслу, но это по-прежнему приводит к миллионам возможностей, поэтому числа должны быть сгруппированы. Таким образом, используя метод, называемый уменьшением размерности, матрица сжимает длинный список слов в группу из 300, а затем помещает ее в 300-мерный вектор. Слова могут быть совершенно разными, но если они попадают в один и тот же вектор, то и значение у них похожее. То же самое делается для заголовков просканированных страниц.
Затем эти семантические векторы используются для поиска совпадений на основе их близости. Каждый запрос и заголовок проверяются, чтобы увидеть, насколько близка проекция размерности заголовка к запросу на карте. Точно так же, как слова выглядят в поисковой системе, векторы тоже.
Для упрощения объяснения предположим, что мы имеем дело с двумерным пространством, поэтому числа рассматриваются как точки на координатной плоскости. Затем заданный запрос и заголовок веб-страницы отображаются на координатной плоскости. Затем можно измерить расстояние между точками запроса и заголовком веб-страницы, чтобы решить, насколько документ релевантен запросу. Чем ближе две точки, тем более релевантен запрос документу.
Помещая запрос в семантический вектор с заголовком веб-страницы, поисковая система понимает, что запрос и заголовок веб-страницы имеют смысл, даже если они не имеют похожих слов. Раньше алгоритмы были более ограничены поиском сходства на основе синонимов и понятий. Например, обувь и ботинки или концепция бренда Kayak и настоящего каяка. Однако, как люди, мы знаем, что запросы с длинным хвостом могут не включать слова, совпадающие с похожими словами или понятиями. Используя нейронные сети, поисковая система может найти сходство не только слов, но и значений. Из-за того, что запросы с длинным хвостом обычно требуют результатов, основанных на значении, и для этих редких запросов меньше данных, семантическое отображение заполняет пробел.
Яндекс также включает другие цели для обучения своих нейронных сетей. Эти цели включают предсказание длинных кликов, CTR и модели «кликать или не кликать». Вместо того, чтобы просто использовать одну из своих лучших моделей нейронных сетей, Яндекс включает пять. Сравнивая преимущества включения всех своих моделей, поисковая команда Яндекса отмечает гораздо более точные результаты поиска. Используя все свои предыдущие факторы ранжирования плюс свою лучшую модель нейронной сети, Яндекс добился улучшения на 1% по длинным хвостовым запросам. Применяя все свои предыдущие факторы ранжирования и пять моделей нейронных сетей, это улучшение удваивается и приводит к повышению точности запросов с длинным хвостом на 2%.
Что Яндекс планирует делать с этим в будущем? Яндекс научил свои нейросети видеть заголовки документов, но поисковая команда в настоящее время работает над проверкой текстового содержания. При этом поисковая система Яндекса сможет выдавать еще более точные результаты после более детального изучения того, соответствует ли содержание просканированных страниц заданному запросу. На сегодняшний день другие поисковые системы с аналогичной технологией проверяют только заголовки.
Яндекс также работает над внедрением модели с большим количеством просканированных страниц. В настоящее время модель просматривает сотни документов, которые уже отфильтрованы в топ результатов поиска Яндекса. Поисковая команда Яндекса работает над оптимизацией модели на более ранней стадии поиска, чтобы в конечном итоге она охватила миллиарды документов. Чем больше документов сможет включить Яндекс, тем точнее будут результаты поиска.
Помимо общего повышения точности результатов поиска Яндекса, это в целом поможет Яндексу лучше понимать разговорные запросы в будущем.
Что это означает для SEO? По мере того, как Яндекс совершенствует свою способность обрабатывать диалоговые запросы, остальным SEO-специалистам и онлайн-маркетологам также придется адаптироваться к этому. Как всегда в SEO, несколько факторов ранжирования имеют значение, и трудно сказать, какие из них имеют наибольшее значение. Однако в конечном итоге качественный контент для пользователя всегда был в центре внимания поисковой команды Яндекса. Палех этого не изменит. SEO-специалисты по-прежнему должны учитывать, что нужно пользователю, не сосредотачиваясь на отдельных ключевых словах и не практикуя наполнение ключевыми словами. Пока веб-мастера предоставляют контент, который поможет пользователям Яндекса, машинное обучение Яндекса распознает его.
Пользователи Яндекса могут быть уверены, что передовая технология машинного обучения Яндекса будет предоставлять им все более и более релевантные результаты поиска по мере того, как будет обрабатываться больше данных. Поскольку поисковая команда Яндекса успешно обучила Палеха, пользователи могут рассчитывать на взаимодействие с окном поиска Яндекса с гораздо более сложными запросами.
Теги
AI (10) искусственный интеллект (6) поисковая система (5) SEO (451) yandex (26)
Яндекс запускает новый алгоритм Палех для улучшения результатов поиска по длинным хвостам
Перейти к основному содержанию
Габби СтейгвилГабби Стейгвил
Специалист по маркетингу в Cet-annonsering.

Опубликовано 3 ноября 2016 г.
+ Подписаться
Новый алгоритм Яндекса Палех только что конкурировал с Google RankBrain?
Яндекс объявил в своем блоге на русском языке, что они запустили новый алгоритм, направленный на улучшение обработки запросов с длинным хвостом. Новый алгоритм называется Палех, по названию всемирно известного российского города, на гербе которого изображена жар-птица.
У жар-птицы длинный хвост, и Яндекс, крупнейшая российская поисковая система, использовал это кодовое имя для запросов с длинным хвостом. Длинные запросы — это несколько слов, введенных в поле поиска, которые в наши дни чаще встречаются в голосовых запросах. Яндекс говорит, что около 100 миллионов запросов в день попадают под классификацию «длинного хвоста» в их поисковой системе.
Алгоритм Палеха позволяет Яндексу понимать смысл каждого запроса, а не просто искать похожие слова. Что напоминает мне Google RankBrain. Я спросил у Яндекса, похожа ли она на RankBrain от Google, и они ответили, что «точно не знают, какая технология стоит за RankBrain от Google, хотя эти технологии выглядят очень похожими».
Алгоритм Палеха Яндекса начал использовать нейронные сети в качестве одного из 1500 факторов ранжирования. Представитель Яндекса сказал нам, что им «удалось научить наши нейронные сети видеть связи между запросом и документом, даже если они не содержат общих слов». Они сделали это, «преобразовав слова из миллиардов поисковых запросов в числа (с группами по 300 в каждом) и поместив их в 300-мерное пространство — теперь каждый документ имеет свой собственный вектор в этом пространстве», — сказали нам. «Если номера запроса и номера документа находятся рядом друг с другом в этом пространстве, то результат релевантен», — добавили они.
Когда я спросил, используют ли они машинное обучение, Яндекс сказал, что они используют машинное обучение, и объяснил, что они обучают свою «нейронную сеть на основе этих запросов, что приведет к некоторым улучшениям в ответах на диалоговые запросы в будущем». Добавив, что у них «также есть много целей (прогнозирование длинных кликов, CTR, модели «нажимать или не нажимать» и т. д.), которые обучают нашу нейронную сеть — наше исследование показало, что использование большего количества целей более эффективно».
Источник: http://searchengineland.com/yandex-launches-new-algorithm-named-palekh-improve-search-results-long-tail-queries-262334?utm_campaign=socialflow&utm_source=facebook&utm_medium=social
Google удаляет функцию ключевых слов контента из Google Search Console
29 ноября 2016 г.
Google официально меняет формат расширения цен AdWords на карты, которые можно перелистывать
16 ноября 2016 г.
Все о мобильном индексе Google
10 ноября 2016 г.
Google тестирует кнопку «наверх» в интерфейсе мобильного поиска
4 ноября 2016 г.
Поисковая реклама принесла 50% доходов от цифровой рекламы в первой половине 2016 года.
2 ноября 2016 г.
Расширение Google AdWords для текстовых сообщений выходит из бета-версии
1 ноября 2016 г.