Блоги yandex – Обучающие курсы для владельцев сайтов — Блог Яндекса для вебмастеров

Как устроены Яндекс.Новости — Блог Яндекса

Яндекс.Новости — крупнейший в рунете агрегатор новостных сообщений. Каждый день этот сервис получает материалы от нескольких тысяч СМИ и автоматически формирует из них новостную картину дня. Это очень сложная задача: нужно структурировать огромное количество информации, выделить самое важное и предоставить результат читателям в понятном виде. Нас часто спрашивают, как работают Яндекс.Новости, и в этой публикации мы постараемся ответить на ваши вопросы. А если что-то забудем — спрашивайте в комментариях.

Главная и определяющая особенность Яндекс.Новостей — отсутствие человеческого вмешательства. У нас нет редакторов и модераторов. Мы не пишем собственных материалов, у нас нет «редакционной политики» и своей точки зрения. Мы не СМИ. Все новости мы получаем от партнёров. Их материалы Новости не публикуют у себя целиком, а используют только фрагменты сообщений и заголовки. На сегодняшний день у Яндекс.Новостей около 6000 партнёров. В среднем они выпускают более 110 тысяч сообщений в будний день.
 


Всё, что вы видите на страницах Яндекс.Новостей, — это результат работы алгоритмов. Они должны показать читателю полную и беспристрастную картину дня, сложить её из тысяч новостных сообщений. Яндекс.Новости являются входной точкой в медиапространство. Их задача — донести до вас всё, о чём пишут СМИ, говорят по радио и по телевизору. Что читать и где — вы решаете сами.

Для удобства читателей алгоритмы Яндекс.Новостей объединяют сообщения разных СМИ об одном и том же событии в сюжеты. За каждым заголовком на главной странице Новостей находится сюжет. Кроме собственно сообщений сюжет содержит дополнительную информацию: карта места события, фото- и видеоматериалы, интервью и статьи по теме, список упомянутых людей и организаций, а также ссылки по теме. Таким образом, на странице сюжета вы можете быстро понять, что произошло, где это произошло, и как новость освещают разные СМИ.

Сообщения объединяются в сюжет с помощью алгоритма кластеризации. Сначала робот Новостей анализирует все сообщения от партнёров и выделяет в них ключевые слова и факты с помощью разработанной в Яндексе технологии извлечения фактов. Затем он сравнивает выделенное и группирует сообщения по сюжетам. После того как сообщения сюжета отобраны, их необходимо отранжировать, и это самый интересный этап работы.

Даже человеку сложно решить, какая из десятков, а иногда и сотен новостей об одном и том же событии интереснее и полнее. Что говорить о компьютере. Чтобы формализовать этот выбор, робот Яндекс.Новостей рассчитывает «вес» сообщения на основе трёх критериев:

• цитируемость (сколько ссылок на это сообщение в других сообщениях сюжета, без учёта ссылок в аффилированных СМИ и самоцитирования),
• свежесть (время публикации сообщения по сравнению с другими источниками),
• информативность (наполненность сообщения ключевыми фактами сюжета).

Почему критерии именно такие? Мы ориентируемся на ожидания читателей: информация должна быть актуальной, полной и достоверной. Актуальность и полноту робот измерить может, а с достоверностью помогает цитируемость. Этот параметр сродни индексу цитирования в научном мире. Он говорит о том, насколько сообщениям этого СМИ доверяют другие издания.

Из фрагментов трёх лучших по этим критериям сообщений формируется краткое описание сюжета (аннотация). Фрагменты сообщений в аннотации должны содержать основные факты: даты и числа, названия объектов и организаций, имена людей, часто цитируемые высказывания. Как правило, фрагменты подбираются таким образом, чтобы дополнять друг друга и дать читателю как можно более полную картину произошедшего.

По тому же принципу выбирается заголовок сюжета. Прочитав его, вы должны сразу понять, о чём речь, поэтому он должен наиболее полно отражать актуальную фактическую сторону сюжета и не содержать лишних слов.

Под аннотацией в сюжете расположены другие сообщения СМИ о событии. Из всех сообщений робот выбирает наиболее цитируемые и ранжирует их по свежести. Остальные новости в виде хронологической ленты можно увидеть по ссылке в конце списка новостей. Приблизительно каждые 20 минут в сюжет добавляются свежие новости.

Кроме параметров самого сообщения при ранжировании учитывается ещё один фактор — вес источника, то есть СМИ, опубликовавшего новость. Он зависит от двух показателей. Это цитируемость — количество ссылок на источник в сообщениях других СМИ за последние два месяца — и оперативность — показатель того, насколько быстро источник реагирует на то или иное событие. Эти показатели автоматически пересчитываются раз в неделю. К примеру, на момент публикации этого текста первая двадцатка СМИ по весу выглядела так (в алфавитном порядке): Агентство спортивных новостей «Р-Спорт», «Ведомости», «Газета.Ru», «Известия», «Интерфакс», ИТАР-ТАСС, «Коммерсант», «Комсомольская правда», НТВ, ПРАЙМ, РБК, РИА Новости, «Росбалт», «Российская газета», «Спорт-Экспресс», телеканал «Дождь», «Чемпионат.com», «Эхо Москвы», Lenta.ru, REGNUM.

Вес СМИ играет незначительную роль при ранжировании сообщений. Он помогает нам в другом — ранжировать сюжеты. Как внутри сюжетов выбираются основные сообщения, так и внутри Яндекс.Новостей выбираются основные сюжеты. Вес источника помогает роботу оценить важность события. Если о каком-то событии пишут многие СМИ с большим весом, оно с высокой вероятностью важнее того события, о котором пишут менее весомые издания. Из этих важных событий и складывается новостная картина дня.

Как отбираются новости для главной страницы Яндекса?
На главной странице Яндекса должны оказаться самые важные события — такие, которые попали на главные страницы авторитетных СМИ. Поэтому при выборе новостей для главной страницы учитывается много разных параметров: количество сообщений об этом событии, вес пишущих о нём источников, плотность потока сообщений в единицу времени, а также позиция новости на сайте источника. Таким образом, на главную страницу Яндекса с большей вероятностью попадут события, о которых много пишут и которые попали на главные страницы авторитетных СМИ.

Почему в топе слишком много негативных новостей?
Яндекс.Новости собирают и структурируют информацию автоматически, они являются зеркалом медиасреды. Другими словами, мы лишь отражаем то, о чём пишут СМИ.

Почему в Яндекс.Новостях появляются опечатки?
Мы не вмешиваемся в работу алгоритмов. Все сообщения наших партнёров попадают в Яндекс.Новости в том виде, в каком они были переданы. Мы не исправляем опечатки вручную, а информируем источник об ошибке.

P.S. Если у вас есть вопросы о работе Яндекс.Новостей, задавайте их в комментариях. Кроме того, скоро мы проведём семинар на тему «Как работают Яндекс.Новости» для всех заинтересованных представителей СМИ. Отправляйте ваши заявки на [email protected], на ближайший семинар мы пригласим первых 70 записавшихся.
 

Команда Яндекс.Новостей

Браузер Yandex — Блог Яндекса

Сегодня мы выпускаем первую версию своего нового браузера. Он получил то же имя, что наша компания — Yandex. Это простой и быстрый браузер с лаконичным интерфейсом, встроенным поиском и защитой от вирусов.

До недавнего времени браузеры состояли из двух основных частей: "движка", который отображает страницы, и пользовательского интерфейса. Но в последнее время всё более важной становится третья часть: облачная. При отображении страниц, при вводе поисковых запросов, при проверке орфографии и переводе, определении местоположения и проверке на вирусы могут и должны использоваться многочисленные знания, которые есть только у некоторых мировых компаний. Не все производители браузеров имеют свои облачные технологии, поэтому им приходится сотрудничать с теми, у кого они есть. К счастью, Яндекс как раз обладает полным спектром облачных сервисов. Именно в этом направлении будут сосредоточены многие наши усилия.

Умная строка объединяет в себе адресную и поисковую. Она выполнена в форме поисковой стрелки Яндекса, показывая пользователю, что можно вводить и адреса сайтов, и запросы. Строка снабжена подсказками с мгновенными ответами от сервисов Яндекса. Прямо в подсказках, не переходя на страницу поиска, можно узнать ситуацию на дорогах города, курсы валют, перевод слова или, например, высоту Останкинской телебашни.

Самые посещаемые пользователем сайты вынесены на специальное Табло. Оно появляется всякий раз, когда человек собирается открыть новую страницу. С его помощью можно в один клик перейти на нужный ресурс, не набирая его адрес вручную. Сайты представлены на Табло логотипом или иконкой — мы считаем, что так узнать сайт гораздо легче, чем по скриншоту. Кроме того, на Табло можно получить свежую информацию от любимых сайтов — например, количество новых сообщений в почте или уведомления от социальной сети.      

Браузер позволяет путешествовать по сети, не беспокоясь за безопасность компьютера. Программа предупредит о страницах и файлах, которые лучше не открывать. Веб-страницы проверяет антивирусная технология Яндекса, скачиваемые файлы — система "Лаборатории Касперского".

Yandex поможет сориентироваться и на сайтах на незнакомом языке. Он умеет переводить как отдельные слова или фразы, так и целые веб-страницы с девяти языков, в том числе английского, немецкого и французского. Для перевода текстов и слов используется облачная технология машинного перевода Яндекса.  

Теперь о том, что внутри. В качестве движка был выбран WebKit, который поддерживается многими разработчиками. Интерфейс базируется на открытом исходном коде Chromium. В платформе Яндекса WebKit расширен решениями компании Opera Software - в частности, технологией Opera Turbo. Она позволяет быстро загружать страницы даже при низкой скорости соединения. Режим Turbo появится уже в следующей версии продукта. Кроме того, в программу добавлены компоненты, без которых современный браузер был бы неполным. Так, в него встроена свежая версия Adobe Flash и программа для просмотра PDF-файлов.

Обычно в браузере накапливается много персональных настроек: закладки, настройки, посещенные страницы. Yandex легко перенесет все данные из вашего старого браузера, и переезд никак не помешает работе. Программа умеет импортировать информацию из любых популярных браузеров.

Загрузить браузер Yandex вы сможете сегодня после 17:00 по адресу

browser.yandex.ru

Последние новости — Блог Яндекса

Что произошло

Сегодня в Госдуму внесён законопроект о приравнивании новостных агрегаторов к СМИ. Законопроект предлагает считать новостным агрегатором любой сайт или даже программу с суточной аудиторией более миллиона пользователей, если такой сайт или программа предоставляет пользователям новостную информацию. Под новостной информацией в законопроекте понимается «общедоступная информация» из СМИ и других источников.

Предполагается, что агрегаторы должны нести ответственность за достоверность и соответствие закону новостной информации, даже если это дословные цитаты из материалов СМИ. Кроме того, законопроект предлагает установить ограничения в части иностранного владения новостными агрегаторами. В частности — запретить иностранным лицам любой контроль над деятельностью владельцев агрегаторов.

Законопроект может повлиять на работу Яндекс.Новостей, поэтому мы считаем нужным его прокомментировать.


Что такое Яндекс.Новости

Яндекс.Новости — это полностью автоматический новостной агрегатор. Каждый день сервис автоматически в режиме реального времени индексирует больше 100 тысяч сообщений от почти 7000 источников. Функция и задача Яндекс.Новостей — сэкономить время читателей, структурируя огромный поток информации и выделяя те события, о которых больше и чаще всего пишут онлайн-издания.

Яндекс.Новости — один из основных источников трафика для многих новостных порталов. Например, за последние полгода из всех посетителей портала РИА Новости треть пришла именно с Яндекс.Новостей.


Позиция Яндекса

Требования, предъявляемые к владельцам новостных агрегаторов в законопроекте, выглядят чрезмерными, а также не соответствуют фактическим возможностям владельцев новостных агрегаторов и поэтому невыполнимы.

Владельцы новостных агрегаторов ограничены в возможности проверять достоверность и законность новостных материалов, созданных третьими лицами. Кроме того, подбор и обработка сообщений происходят автоматически в режиме реального времени — это единственный способ оперативно собрать и обработать такое огромное количество материалов. Законопроект в текущей редакции игнорирует сущность, задачи и особенности функционирования новостных агрегаторов и ставит их в значительно более жёсткие условия, чем средства массовой информации.

Так, согласно закону о СМИ, редакция, главный редактор и журналист не несут ответственности за распространение сведений, если они были перепечатаны из другого СМИ. Законопроект же обязывает  владельца новостного агрегатора нести полную ответственность за распространяемую им информацию, даже когда эта информация дословно воспроизводит весь текст или фрагменты публикации в СМИ. При том что у СМИ уже есть обязанность проверять достоверность и законность публикаций, деятельность СМИ уже регулируется и контролируется.

Кроме того, следует отметить, что определения владельца новостного агрегатора и новостной информации в законопроекте слишком широкие. Это даёт возможность применять требования, предлагаемые законопроектом, к любым российским ресурсам с суточной аудиторией более одного миллиона пользователей, собирающим и обрабатывающим общедоступную информацию с других ресурсов. Требования законопроекта можно применить и к любой информации, размещённой на ресурсе владельца новостного агрегатора, например к комментариям пользователей, результатам поисковой выдачи и так далее. В результате законопроект может вступить в противоречие с уже действующим законодательством, которое регулирует вопросы ответственности владельца ресурса за размещаемую информацию.

Таким образом, законопроект предполагает возложить на новостные агрегаторы больше обязанностей, чем сейчас есть у СМИ. В этой ситуации сервис Яндекс.Новости в текущем виде существовать не сможет.

Яндекс.Блоги — Викиреальность

Яндекс.Блоги — интернет-агрегатор, который дает доступ к поиску по блогам (блогозаписям, комментариям и др.). Входит в число основных сервисов от Яндекса.

[править] Блогохостинги, которые мониторятся Яндекс.Блогами

Крупнейшие:

Имеется возможность стандартного поиска по ключевой фразе.

Также имеется возможность расширенного поиска, где можно задать область поиска (блоги в целом, только блогозаписи, либо только комментарии в блогах), имя блоггера, либо имя сообщества, местоположение, музыку, дату записи/комментария.

На главной странице Яндекс.Блогов приводится статистика по популярным блогохостингам, обсуждаемые темы дня в блогах, обсуждаемые новости, популярные медиа.

[править] Яндекс.Блоги и ЖЖ

Большинство сделанных в ЖЖ записей и комментариев попадают в кеш Яндекс.Блогов через 5-10 минут после создания. В настройках ЖЖ можно поставить галочку, которая минимизирует попадание комментариев и блогозаписей определенного пользователя в кеши.

Материалы могут удаляться из кэша со временем, а также по запросу автора записи или комментария.

[править] Поиск по Яндекс-блогам

http://blogs.yandex.ru/advanced.xml?text= (это страница расширенного поиска).

  • В поле «на сервере» указываем livejournal.com (можно щелкнуть на пунктирную ссылку)
  • В поле «в журнале или сообществе» указываем блог (например, ru_wikipedia).

Посты, которые уже успел проиндексировать робот Яндекса, хранятся даже после их удаления в самом блоге.

[править] Отличие от основного Яндекса

Эта служба — не основной Yandex, а отдельный сервер, который использует RSS-механизмы выкачивания содержимого сайта. Это позволяет поисковым роботам не перечитывать всякий раз всё содержимое большого сайта, а считывать только свежие записи. Основной поисковый движок Яндекса при этом находится отдельно и независимо, и использует обычные для поисковиков способы чтения сайта, а не этот RSS.

В блог LiveJournal и т. п. можно поместить форму поиска через Яндекс. Как это сделать, показано по ссылке. [1]

В рекомендованной форме поиска содержатся картинки Яндекса. Их выкачивание читателем теоретически позволяет сохранять на серверах Яндекса информацию о пользователях (см. Большой брат следит за тобой).

На свой сайт или форум на особом движке можно поместить этот механизм в виде скрипта (обычно yarss.php, для популярных форумных движков есть уже готовые скрипты). Используется RSS с дополнительными Яндекс-тегами, см. документацию.

Google часто не успевает проиндексировать блоги LiveJournal. Поэтому для поиска по блогам удобнее использовать Яндекс.Блоги (Х-romix).

Отправить ответ

avatar
  Подписаться  
Уведомление о