Илья сегалович как работают поисковые системы: Разработка информационной системы сетевого семантического поиска. Обзор публикаций

Илья Сегалович: «Как лингвистика помогает поисковой системе понять пользователя?»

В Европейском университете Санкт-Петербургa 3 апреля прошла встреча с одним из основателей компании «Яндекс» Ильей Сегаловичем, посвященная теме «Как лингвистика помогает поисковой системе понять пользователя?».

При общении пользователя с поисковой системой возникают две глобальные задачи: правильно трактовать запрос пользователя при обращении к поиску, и отобрать и представить наиболее полезные документы по запросу. В своем докладе Илья Сегалович рассказал, каким образом решается первая задача в Яндексе, и какие методы современной лингвистики при этом используются.

Для начала, решается задача ― как помочь пользователю набрать запрос. Задача этого этапа, этапа составления поисковых подсказок ― сделать так, чтоб поиск происходил не за два-три слова, а за две-три буквы, то есть, чтобы уже между второй и третьей буквами появлялись правильные подсказки. Над этим работает целая поисковая команда.

К счастью, по словам Ильи, поисковые запросы хорошо структурированы и довольно стандартны, например, это касается запросов «купить», «скачать», «цена». Это структурирование достаточно простоe, и поисковая система легко догадывается, что люди набирают.

Далее пользователей можно разбить на несколько групп по интересам, в чем помогают поисковые сессии. Например, пользователю с интересами в соцсетях по введенной букве «в» будет предложен сайт «ВКонтакте», пользователю, интересующемуся музыкой, на «в» будет предложен Виктор Цой или Валерий Меладзе. Процесс этот ― чисто механический.

Сейчас результаты разбиваются на 400 тысяч разных интересов, разных кластеров. И для каждого кластера есть свой способ показа поисковых результатов.

После того, как поисковая система «помогла» пользователю набрать запрос, она должна «понять», на каком языке запрос сделан. Бывает разная письменность, разный набор символов для каждого языка. Например, и с точкой (і) в украинском языке.

Есть характерные слова языка, характерные последовательности слов. И, кроме того, про пользователя можно узнать, что он пришел с IP-адреса, который принадлежит Турции, и у него в браузере установлен турецкий язык, как язык поискового интерфейса, и он зашел на турецкий домен yandex.com.tr. И большая вероятность того, что его нужно интерпретировать как пользователя, знающего турецкий язык. На основе всех этих факторов строится классификатор, для каждого языка свой, и два запроса для разных языков будут по-разному обработаны. У Яндекса есть проект «Суржик» для украинского и русского языков. Если понятно, что пользователь понимает оба языка, то по запросу ищутся и украинские, и русские документы, и результаты выдаются без фильтрации по языку. Это довольно редкая вещь, на год позже Яндекса Google сделал подобный проект для Филиппин, для испанского и английского языков. Но обычно выдача дается на одном языке.

Поисковику сложно понять запросы потому, что они, как правило, короткие, и синтаксис в них не такой, как в текстах. К тому же, в них много опечаток. Сложности еще и в том, что есть много неоднозначных интерпретаций. Например, запрос на английском языке не всегда предполагает англоязычные результаты поиска. По запросу «Facebook», сделанному из России, скорее всего, нужны будут результаты на русском.

Часто бывает так, что язык запроса не совпадает с языком искомого документа, например, испанское название песни, слова которой ― на английском. Соответственно, то, что запрос был по-испански, еще не значит, что нужно перестать искать неиспанские документы.

Понимание поискового запроса ― это использование всех интерпретаций этого запроса, использование всех вариантов выразить этот запрос другими способами.

Во-первых, следует сказать, какие языковые явления и как используются лингвистами, когда они строят расширение запроса.

Поисковое расширение ― это набор всех возможных переформулировок запроса с тем же самым смыслом. Это важно потому, что одну и ту же вещь часто выражают по-разному. Кроме того, исходный текст запроса может быть неточным, небрежным, его нужно как-то исправить, скорректировать, добавить более частотное его написание. И бывают достаточно узкие области, о которых пользователь мало понимает, использует, возможно, не те слова, и нужно это угадать, и подставить вместо них нужные слова. К тому же, 15% запросов содержат опечатки.

Первое, что можно сделать ― это расширить запрос морфологическими формами слова, и это было сделано еще в 90-е годы. Нужно также бороться с омонимами (ужé―ýже―уже-й).Для каждого языка есть словарь, который наполняется автоматически. Строятся словообразовательные модели. Добавляются аббревиатуры. Запросы транслитерируются. Учитываются орфографические варианты, например, написание раздельно или через дефис.Бывает, что приходится иметь дело не только со словами. Например, «скачать» ― это не только слово, но и кнопочка, некий семантический эквивалент, в теге которого почти нет никаких слов.

Еще одна интересная задача ― это выделение и угадывание, когда человек имеет в виду конкретный объект реального мира с конкретным названием. Ресторан на Льва Толстого не имеет отношения к писателю, и поисковику нужно выдать адрес, заведение, показать его на карте.

Во-вторых, нужно сказать о том, как помогает контекст, соседние слова запроса помогают избежать неоднозначности или ненужных расширений, борются с неточностями и ошибками. 27% случаев исправляются, благодаря контексту запросов.

Ничего нельзя заменять в запросе в нескольких случаях. Например, вообще ничего нельзя заменять в случае поиска цитат. Нельзя делать замены в случае переименованных объектов, терминов, многозначных слов.

В-третьих, нужно сказать, как технологически все устроено. Например, замену можно делать, исходя из переформулировки запроса, которую делает сам пользователь на основании выдачи по первому запросу. Когда есть вариант замены слова «а» на слово «б», происходит поиск документов по обоим вариантам. Далее сравнивается, в каких документах встречается слово «а» и слово «б», и про каждое слово набирается длинный хвост самых типичных его признаков. Сопоставляя их, видно, что эти хвосты друг на друга сильно похожи ― значит, эти слова синонимичны.

Также можно судить по переходу по страницам. Например, был запрос «а», потом был запрос «б». По двум разным запросам люди перешли на одну и ту же страницу. Это может служить сигналом того, что запросы ― об одном и том же, хотя и состоят из разных слов. И это можно использовать, чтобы сделать расширение запроса.

Всего получается 150 миллионов гипотез. После применения статистики остается 100 миллионов. А дальше разными автоматическими целевыми методами подбирается такой алгоритм, такой классификатор, который на основе всех признаков принимает решение, что одно слово на другое заменить будет хорошо. От этого выиграют все, и никто не проиграет.

Илья Сегалович: Проблемы в использовании поисковых систем интернета как лингвистического ресурса – статьи про интернет-маркетинг

Последнее обновление: 09 октября 2018 года

3499

По словам Ильи Сегаловича, веб-корпус является бесценным источником данных для лингвистов. На его основе можно строить и проверять различные модели, извлекать знания и статистические данные, проводить сравнительные изучения (например, различия языка в регионах).

Для самих поисковых систем веб-корпус тоже необходим — для измерения качества индекса и для сравнения с другими поисковиками.

Что можно считать? Можно считать словоупотребления, сайты или страницы. Илья Сегалович поделился такими цифрами: средний размер документа в базе Янедкса 600-700 слов, а среднее самое частотное слово — 20-30.

Считать сайты — дело не благодарное. Поисковики не заточены для лингвистов. У некоторых поисковиков наблюдается иллюзия того, что в выдаче мы не получим несколько найденных позиций с одного и того же сайта. Примеров, когда на второй и далее страницах результатов поиска встречаются найденные документы с сайта, который мы уже видели на первой странице, множество. К тому же у поисковиков нет согласия, что же считать сайтом. А для лингвистов удобнее применять к сайтам основную характеристику — у сайта есть один владелец.

Лучше всего считать страницы, в этом случае все более ясно: страница — единица информации в индекс поисковика. Но и здесь есть проблемы. Почти все поисковики часто сознательно не выдают часть результатов: в частности, не показывают похожие друг на друга результаты или не показывают заведомо малорелевантные результаты. Такой эффект ‘экономного’ поиска называют эшелонированием. С этим эффектом также можно связать необычные перепады в статистике поиска очень частотных слов, которые наблюдались в некоторых поисковых системах.

По поводу нестабильности результатов выдачи поисковиков Илья Сегалович рекомендовал прочитать работу On the Instability of Web Search Engines (Erik Selberg Oren Etzioni), в которой есть результаты эксперимента по сравнению выдачи 9 поисковых машин утром и вечером: результаты отличались от 19,84% до 30,77%. Всем лингвистам Илья посоветовал не верить слишком большим числам и проводить изучение статистики результатов ночью и не делать больших перерывов (больше двух недель) между несколькими измерениями.

Кроме того, важно знать язык запросов поисковых машин, который несколько отличается в каждой реализации. А также знать параметры, которые отключают фильтрацию документов по одинаковым сниппетам. Для Google это параметр filter=0, для Яндекса rd=0, для Рамблера noglue=1, для Yahoo dups=1.

Также Илья Сегалович рассказал про два оператора Яндекса. Оператор языка запросов date позволяет искать в Яндекс.Новостях или в Поиске по блогам с ограничением по дате, например, запрос date=’200609′ возвращает в результате все новости сентября 2006 года. Параметр, позволяющий не ‘склеивать’ результаты в сайты pag=u (это аналог типа группировки flat в XML-поиске на xml.yandex.ru).

В конце своего доклада Илья Сегалович подвел итог:

  1. Нельзя верить большим числам статистики поисковиков
  2. Проводить исследования статистики в короткий промежуток времени и желательно ночью, когда нагрузка на сервера минимальна
  3. Если сравниваются западные поисковики с Рунетом, то нужно учитывать разницу во времени
  4. У API, которые предлагают некоторые поисковики, наблюдаются проблемы с тем, что выдается старая версия индекса и нет гарантий, что это тоже самое, что сейчас в основной поисковой выдаче
  5. Интерпретация языка запросов и морфологии у разных поисковых систем разная
  6. Поведение поисковиков меняется со временем

Теги: сниппет, язык запросов

Поисковая система, чтобы найти лучшие данные?

 

Чрезвычайно редкое событие-кандидат на распад B 0 s → μμ, наблюдаемое в детекторе LHCb.

Являясь ведущим поисковым провайдером в России с долей рынка более 60%, Яндекс для Востока то же, что Google для Запада. Их сотрудничество с CERN началось еще в 2011 году, когда к соучредителю Яндекса Илье Сегаловичу обратился тогдашний представитель LHCb Андрей Голутвин. «Подобно тому, как поисковые системы Яндекса просеивают тысячи веб-сайтов, чтобы найти нужную страницу, наши экспериментаторы применяют алгоритмы, чтобы найти наилучший результат в наших данных, — говорит Андрей Голутвин. ?»

Это была идея, которую Яндекс решил проверить, и сейчас они сотрудничают с Организацией под эгидой CERN openlab. Яндекс разработал алгоритм поиска и выбора событий совместно с экспериментом LHCb. В этом алгоритме используется запатентованная технология машинного обучения MatrixNet, основанная на предыдущем опыте для получения более релевантных результатов. Алгоритм кажется особенно подходящим для поиска чрезвычайно редких событий (таких как показанное на рисунке) и в настоящее время используется в нескольких анализах, чтобы помочь улучшить эффективность выбора, бросая вызов стандартным статистическим методам.

Однако самая полезная разработка Яндекса стала неожиданностью: «Мы обнаружили, что преимущество дает не сам алгоритм, а разработанный нами для него удобный интерфейс», — говорит Андрей Устюжанин, сотрудник Яндекса и член коллаборации LHCb. «Это позволяет ученым легко взаимодействовать, когда они вместе работают над одним и тем же набором данных. Платформа представляет собой функциональную Википедию, если хотите, где вы можете выполнять сложные вычислительные задачи и делиться результатами с другими». Кроме того, интерактивная платформа не ограничивается алгоритмами Яндекса, так как можно использовать любой процесс выбора событий.

Несмотря на то, что Яндекс все еще находится на ранней стадии, он поощряет эксперименты ЦЕРН по изучению потенциала их платформы. «Такая платформа может стать гораздо более эффективным способом совместной работы, — объясняет Устюжанин. «Объединяя процесс анализа в духе открытой науки, ученые могут обмениваться идеями по улучшению кодов или даже повторно использовать одно и то же программное обеспечение для анализа с другим набором данных. Даже если наша конкретная платформа не используется, мы надеемся, что больше экспериментов рассматривают эту виртуальную модель сотрудничества».

Но это еще не все. По мере расширения сотрудничества Яндекса с Организацией исследуются все новые и новые авангардные идеи. Можем ли мы создать инструмент поиска, который сканирует данные для определенного типа событий? Как насчет платформы, которая демонстрирует, как можно улучшить результаты на основе различных анализов? Можем ли мы автоматизировать усовершенствование алгоритмов анализа для отражения постоянно меняющихся условий? Все это и многое другое находится на чертежной доске.

Катарина Энтони

Интервью Яндекса с Ильей Сегаловичем на #ИСС

В увлекательном интервью типа «беседы у камина» Илья Сегалович дал интервью о развитии Яндекса.

В откровенном обмене мнениями Сегалович сообщил, что это название изначально было аббревиатурой от «Еще один индекс», а мотивация его создания заключалась в том, что альтернативы не было — в начале 19990-х годов Интернета в том состоянии, в котором он есть сейчас, и разработчики не видели для него огромного рынка. Их первым продуктом пользовались 100 человек — Сегалович был и инженером, и службой поддержки клиентов.

Торгового индекса в России не было — создатели пытались сделать «что-то красивое» в помощь.

Восприятие Яндекса в России и за ее пределами различается — они лидируют в России по новостям, покупкам, платежам и поиску и не планируют менять восприятие движка: в обезоруживающе откровенной манере Сегалович намекает, что это это то, что это — индивидуально для каждого пользователя. Когда я слушал, мне казалось, что я вернулся в пьянящие дни интернет-бума, когда Интернет был блестящим, захватывающим новым местом.

Это глоток свежего воздуха: Сегалович отмечает, что конкурировать становится все труднее, поэтому им нужно больше работать, чтобы оставаться впереди. Яндекс был большим победителем благодаря своему русскому языку. По мере появления других конкурентов компании приходится вводить новшества. Хотя он все чаще использует геотеги, он все еще изо всех сил старается не разбавлять и не портить результаты. Угадывание намерений пользователя — сложный процесс. Яндекс на два года опередил Google — он просто пытался улучшить пользовательский опыт.

Яндекс долгое время сопротивлялся персонализации — персонализация «в вашем лице» может оттолкнуть пользователей. Они начинают с обычных результатов поиска (один размер подходит всем), но адаптируют результаты в соответствии с привычками пользователей, такими как предпочтение бесплатности или готовность загружать. Измерить персональную релевантность сложно — люди могут отключить персональные результаты в Яндексе, но мало кто это делает.

Яндекс последовал инициативе Facebook и позволил людям собирать все свои данные в одном zip-файле. Сегалович призывает другие поисковые системы позволить людям переносить эту информацию между поисковыми системами — возможно, на уровне браузера. Поисковик должен владеть данными.

Яндекс был жадным, хотя и называет себя МСП по сравнению с другими монолитными поисковыми системами. Например, важным направлением инвестиций стал машинный перевод, и Яндекс также присматривается к переводу речи.

Яндекс недавно запустился в Турции и уже имеет там около 3% проникновения — очень лояльные люди. По словам Сегаловича, Яндекс-панорама — очень полезный инструмент для транспорта — как уличные карты, но более продвинутый. Это было ценной особенностью в Турции. Адаптация движка, когда поиски охватывают так мало людей, в сочетании со сложностью языка означает, что движок столкнулся с некоторыми интересными проблемами, о которых Сегалович обезоруживающе честен.
С этого момента Яндекс будет расширять страну за страной по мере того, как они делают для этого экономическое обоснование. Они знают, что и Google, и Baidu будут внимательно следить за ними. Однако в Китае действуют как языковые, так и государственные ограничения, поэтому мы вряд ли увидим там экспансию Яндекса в ближайшее время.

Рейтинг в Яндексе основан на машинном обучении. Никаких штрафов за отсутствие локального контента нет, отмечает Сегалович, но наличие адресов на страницах, релевантных поисковому запросу, действительно помогает.

Яндекс стабильно выигрывает по поисковому контенту и очень старается создавать обучающие программы для новичков. Эта открытость и видение поиска перекликаются с Firefox — более открытым и качественным сервисом. Сегалович считает, что Google не очень открыт на фронте поиска. Он отметил, что Яндекс регулярно выигрывает у Google в поисковых сравнениях.

Он отмечает, что изменения Google (Panda), вероятно, к лучшему для Google, но Яндекс продолжит предоставлять качественный контент, где бы он ни был найден.

Но это мобильное приложение, которое, возможно, является местом для просмотра. Мобильная связь, сказал Сегалович одновременно с приобретениями, важна, но проникновение смартфонов в России все еще низкое. Однако Яндекс уже работает на мобильных устройствах, и приложение для Android уже запущено. Однако он считает, что обучение с мобильных устройств будет интересным из-за взаимодействия пользователя с экраном — сигналы могут быть очень информативными для поисковых систем.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *