Яндекс исследования: Компания Яндекс — Технологии

Содержание

Исследования Яндекса — Из чего сделаны песни о любви

14 февраля 2023. По данным Яндекс Музыки

Ко Дню святого Валентина мы решили изучить тексты песен о любви. Узнали, о чём поют исполнители любовной лирики, каких песен больше — грустных или радостных, а также чем отличаются в этом отношении разные жанры. Исследование во многом опирается на опыт нашего старого проекта про русский рэп.

Задачу отобрать любовные песни поручили

: показывали им тексты и просили выбрать те, что посвящены любви. Они разметили чуть более 20 тысяч русскоязычных треков — по несколько тысяч в каждом из пяти популярных жанров: инди, поп, рок, рэп и шансон. К любовным песням толокеры отнесли около 8,5 тысячи треков, то есть примерно 40 %.

Самое частотное

в любовных песнях — любовь: оно встречается почти в 40 % отобранных текстов. Следом идут знать, хотеть, глаза, один, любить, сердце и ночь. Все эти слова характерны для любовной лирики, то есть встречаются в ней чаще, чем во всех остальных треках.

Но популярность не всегда совпадает с характерностью. Например, жизнь, дорога или человек довольно частотны в любовных текстах, но звучат там в полтора-два раза реже, чем в остальных песнях. Такие слова как небо, свет и ветер встречаются в двух группах текстов почти одинаково часто. Ниже показаны примеры слов с разной характерностью для любовной лирики.

По данным Яндекс Музыки

По данным Яндекс Музыки

Самое характерное для любовных песен существительное — аромат, глагол — разлюбить, прилагательное — карий. Соответствующая тройка нехарактерных слов — прокурор, пахать и грозный. Пара противоположных наречий: вдвоём и лихо, числительных: двое и лям, междометий: прощай и угу.

Типичные для любовных текстов представители флоры и фауны — ромашка и роза, их антиподы — крыса и медведь. Характерные предметы — простыня и бокал, нехарактерные — микрофон и лопата. Самые романтичные продукты питания — шоколад и кофе, самые неромантичные — хлеб и пиво.

О чём поют в любовных песнях: характерные и нехарактерные слова

По данным Яндекс Музыки

О чём поют в любовных песнях: характерные и нехарактерные слова

По данным Яндекс Музыки

Действие песен о любви обычно разворачивается осенью или летом. Типичное время суток — ночь или вечер. Самая «любовная» стихия — огонь, сторона света — восток, цвет — алый, оттенок — яркий, а вкус, конечно, сладкий.

По данным Яндекс Музыки

По данным Яндекс Музыки

Самыми романтичными оказались исполнители поп-музыки: в этом жанре любви посвящены более 70 % текстов. Реже всего о любви поют рэперы и рокеры.

По данным Яндекс Музыки

По данным Яндекс Музыки

Для каждого жанра мы отобрали по тысяче самых популярных на Яндекс Музыке

, сравнили частотность звучащих там

и нашли самые характерные. Для любовной поп-музыки это, например, винишко, наболеть и по-английски. Для инди — нездоровый, цветочный и безудержный. Для русского шансона — черёмуха, девчоночка и мелькнуть.

По данным Яндекс Музыки

По данным Яндекс Музыки

По данным Яндекс Музыки

Мы просили толокеров не только выбрать песни о любви, но и определить их настроение: радостное оно, нейтральное или грустное. Оказалось, что любовная лирика в большинстве случаев печальная: песен с хорошим настроением всего около 10 % — в пять раз меньше, чем с плохим. Самые оптимистичные жанры — поп и рэп, самые пессимистичные — инди и рок.

По данным Яндекс Музыки

Судя по частотным глаголам, в грустных любовных песнях обычно прощают и отпускают, плачут, убивают и умирают, молчат и кричат. А в радостных танцуют, нравятся, улыбаются, манят, крадут (любовь, сердца, сны и так далее), сияют и целуются.

Самые частотные слова из радостных и грустных песен о любви

Из тех, что в песнях одного типа встречаются минимум в два раза чаще, чем другого.

По данным Яндекс Музыки

Самые частотные слова из радостных и грустных песен о любви

Из тех, что в песнях одного типа встречаются минимум в два раза чаще, чем другого.

По данным Яндекс Музыки

Яндекс.Маркет и GfK: Развитие онлайн-торговли в России

Число онлайн-покупателей в России продолжает быстро расти. По данным GfK на июль 2018 года, 35% россиян хотя бы раз за последние полгода покупали товары в интернете. С весны прошлого года этот показатель вырос на 17%.

Чтобы выяснить, что, где и как покупают россияне, что мотивирует их приобретать товары онлайн, Яндекс.Маркет и GfK провели опрос. В нём приняли участие 5470 человек в возрасте от 16 до 55 лет, проживающие в российских городах.

В прошлые годы GfK опрашивала россиян, проживающих в городах с населением от 100 тысяч человек. В этом году решили расширить выборку и включить всё городское население России. В тех частях исследования, где сравниваются результаты нынешнего и предыдущих опросов, учитываются только ответы жителей городов 100+. Остальные выводы сделаны на основании ответов всех респондентов. Исследование проводилось в сентябре 2018 года.

Коротко о главном

Экономия

Основной мотив, который приводит людей в онлайн-магазины, — желание сэкономить. Людей привлекает также возможность сравнивать цены, искать выгодные предложения и делать покупки в любое время и в любом месте.

Топ товаров по числу онлайн-покупателей в последние годы не меняется. И в российских, и в зарубежных интернет-магазинах больше всего респондентов заказывают одежду и обувь. Кроме одежды в России многие покупают мелкую бытовую технику и косметику, в Китае — смартфоны и товары для детей, в других странах — косметику и опять же детские товары.

Много скидок

Больше 70% последних покупок были сделаны со скидкой или по акции. При этом почти 60% опрошенных были бы готовы купить тот же товар без специальных условий. Самые распространённые акции — прямые скидки и бесплатная доставка. Российские магазины заметно чаще зарубежных привлекают покупателей промокодами, зачислением баллов на карту и скидками по программам лояльности.

Но мало пообещать скидку, обещание придется выполнить. Больше 90% россиян хотя бы иногда сравнивают цены на разных сайтах, чтобы проверить, правда ли магазин снижает цены, когда предлагает скидки. Почти 40% делают это всегда.

Мобильный шопинг растет

Судя по тому, как опрошенные оформляли свой последний заказ, россияне по-прежнему чаще всего совершают покупки с компьютера. При этом растёт доля заказов, оформленных с телефонов и планшетов. По данным опроса, в зарубежных магазинах больше покупают с мобильных устройств из-за простоты оплаты, более удобных приложений и наличия скидок при покупке со смартфона.

Спонтанные покупки и шоппинг как развлечение

Несмотря на то, что онлайн-шоппинг очень рациональный, все равно практически каждая пятая покупка совершается спонтанно (18% в российских магазинах, в иностранных — 22%).

Больше всего таких покупок делают молодые люди. Женщины заметно чаще мужчин совершают спонтанные покупки в зарубежных магазинах.

А еще практически для каждого десятого онлайн-покупателя в России покупки в интернете это возможность хорошо провести время и найти интересные товары.

Читайте публичную версию отчета по исследованию на сайте Яндекс.

Исследования Яндекса

Блог

Просмотреть все
  • Представляем новые наборы гетерофильных графов

    Исследования

    6 марта 2023 г. Особенности табличного глубокого обучения

    Исследования

    2 декабря 2022 г.

  • Объявление

    Доклады приняты на ICML 2023

    9 мая 2023 г.

  • Объявление

    Доклады приняты на ICLR 2023

    6 февраля 2023 г.

  • Объявление

    Документы приняты в EMNLP 2022

    10 ноября 2022 г.

Публикации

Просмотреть все
  • Критический взгляд на оценку GNN в условиях гетерофилии: действительно ли мы делаем Прогресс?

    Графовое машинное обучениеОлег ПлатоновДенис КузнеделевМихаил ДискинАртем БабенкоЛюдмила Прохоренкова

    ICLR

  • Взгляд на мини-пакетный SGD через производящие функции: условия сходимости, фазовые переходы, преимущества от отрицательного импульса

    ОптимизацияМаксим ВеликановДенис КузнеделевДмитрий Яроцкий

    ICLR

  • Градиентный бустинг выполняет вывод гауссовского процесса

    Теория машинного обученияОценка неопределенности Градиентный бустингАлексей УстименкоАртем БеляковЛюдмила Прохоренкова

    ICLR

  • Понимание скрытых кодов DDPM с помощью оптимального транспорта

    Теория машинного обученияВалентин ХрулковГлеб РыжаковАндрей ЧертковИван Оселедец

    ICLR

Направления исследований

Просмотреть все
  • Компьютерное зрение

    Исследовательская группа Яндекса регулярно вносит свой вклад в сообщество исследователей компьютерного зрения, в основном в области поиска изображений и генеративного моделирования.

    32 публикации

    2 публикации

    1 набор данных

  • Обработка естественного языка

    Язык — одна из ключевых форм общения. Мы изучаем методы представления и понимания языка, чтобы упростить взаимодействие человека с компьютером.

    21 публикация

    1 сообщение

    2 набора данных

  • Крупномасштабное машинное обучение

    Сегодня для обучения самых мощных моделей часто требуются значительные ресурсы. Наше исследование направлено на то, чтобы сделать крупномасштабное обучение более эффективным и доступным для всего сообщества машинного обучения.

    6 публикаций

  • Теория машинного обучения

    Мы изучаем различные аспекты, связанные с теоретическим пониманием моделей и алгоритмов машинного обучения.

    24 публикации

    2 сообщения

  • Машинное обучение графов

    Графики — это естественный способ представления данных из различных областей, таких как социальные сети, молекулы, текст, код и т. д. Мы разрабатываем и анализируем алгоритмы графоструктурирования данные.

    11 публикаций

    2 сообщения

    1 набор данных

  • Вероятностное машинное обучение. Обычно используется в генеративном моделировании, регрессии и количественной оценке неопределенности.

    6 публикаций

Работайте с нами

Присоединяйтесь к нашей исследовательской группе и получите возможность участвовать в прикладных и теоретических исследованиях мирового уровня, получить опыт работы над высокоэффективными проектами и публиковаться на ведущих научных конференциях. Вы будете вносить свой вклад в высокотехнологичные услуги, такие как технологии компьютерного зрения, диалоговые системы, нейронный машинный перевод и беспилотные автомобили.

Присоединяйтесь к нам

Публикации

5 из 199 публикаций

  • Критический взгляд на оценку GNN в условиях гетерофилии: действительно ли мы добиваемся прогресса?

    Машинное обучение на графахОлег ПлатоновДенис КузнеделевМихаил ДискинАртем БабенкоЛюдмила Прохоренкова

    ICLR

    Классификация узлов — это классическая задача обучения представлению графов, в которой нейронные сети графов (GNN) недавно добились хороших результатов. Однако часто считается, что стандартные GNN хорошо работают только для гомофильных графов, то есть графов, в которых ребра имеют тенденцию соединять узлы одного класса. Графы без этого свойства называются гетерофильными, и обычно предполагается, что для достижения высокой производительности на таких графах требуются специальные методы. В данной работе мы оспариваем это предположение. Во-первых, мы показываем, что стандартные наборы данных, используемые для оценки моделей, специфичных для гетерофилии, имеют серьезные недостатки, что делает результаты, полученные с их использованием, ненадежными. Наиболее существенным из этих недостатков является наличие большого количества дублирующихся узлов в наборах данных Squirrel и Chameleon, что приводит к утечке данных трейн-теста. Мы показываем, что удаление повторяющихся узлов сильно влияет на производительность GNN в этих наборах данных. Затем мы предлагаем набор гетерофильных графиков с различными свойствами, которые, по нашему мнению, могут служить лучшим эталоном для оценки производительности GNN в условиях гетерофилии. Мы показываем, что стандартные GNN достигают хороших результатов на этих гетерофильных графах, почти всегда превосходя специализированные модели. Наши наборы данных и код для воспроизведения наших экспериментов доступны по адресу https://github.com/yandex-research/heterophilous-graphs

  • Взгляд на мини-пакетный SGD через производящие функции: условия сходимости, фазовые переходы, эффект от отрицательного импульса

    ОптимизацияМаксим ВеликановДенис КузнеделевДмитрий Яроцкий это фундаментальный алгоритм для обучения больших прогностических моделей . В этой статье мы разрабатываем новую аналитическую основу для анализа усредненных по шуму свойств мини-пакетного SGD для линейных моделей при постоянных скоростях обучения, импульсах и размерах пакетов. Наша ключевая идея состоит в том, чтобы рассмотреть динамику вторых моментов параметров модели для специального семейства «спектрально-выразимых» аппроксимаций. Это позволяет получить явное выражение для производящей функции последовательности значений потерь. Анализируя эту производящую функцию, мы находим, в частности, что 1) динамика SGD демонстрирует несколько сходящихся и расходящихся режимов в зависимости от спектральных распределений задачи; 2) сходящиеся режимы допускают явные условия устойчивости и явные асимптотики потерь в случае степенных спектральных распределений; 3) оптимальная скорость сходимости может быть достигнута при отрицательных импульсах. Мы проверяем наши теоретические предсказания обширными экспериментами с MNIST и синтетическими задачами и находим хорошее количественное согласие.

  • Повышение градиента выполняет вывод о гауссовском процессе сходится к решению определенная проблема регрессии Kernel Ridge. Таким образом, мы получаем сходимость к апостериорному среднему гауссовского процесса, что, в свою очередь, позволяет нам легко преобразовать усиление градиента в выборку из апостериорного значения, чтобы обеспечить лучшие оценки неопределенности знаний посредством оценки Монте-Карло апостериорной дисперсии.

    Мы показываем, что предлагаемый пробоотборник позволяет лучше оценивать неопределенность знаний, что приводит к улучшенному обнаружению вне предметной области.

  • Понимание скрытых кодов DDPM через оптимальную транспортировку

    Теория машинного обученияВалентин ХрулковГлеб РыжаковАндрей ЧертковИван Оселедец

    ICLR

    В последнее время диффузионные модели превзошли альтернативные подходы к моделированию распространения естественных изображений. Такие модели диффузии допускают детерминированную выборку через ОДУ потока вероятностей, что приводит к скрытому пространству и карте кодировщика. Несмотря на важные практические приложения, такие как оценка вероятности, теоретические свойства этой карты еще не полностью поняты. В настоящей работе мы частично рассматриваем этот вопрос для популярного случая подхода VP-SDE (DDPM). Мы показываем, что, возможно неожиданно, карта кодировщика DDPM совпадает с оптимальной транспортной картой для обычных распределений; мы подтверждаем это утверждение обширными численными экспериментами с использованием расширенного решателя тензорных последовательностей для многомерного уравнения Фоккера-Планка. Мы предоставляем дополнительные теоретические доказательства для случая многомерных нормальных распределений.

  • Децентрализованный локальный стохастический экстраградиент для вариационных неравенств охастические вариационные неравенства (ВИ) на неограниченных областях с неоднородными (не -IID) и распространяется на множество устройств. Мы делаем очень общее предположение о вычислительной сети, которая, в частности, охватывает настройки полностью децентрализованных вычислений с изменяющимися во времени сетями и централизованными топологиями, обычно используемыми в федеративном обучении. Кроме того, можно выполнить несколько локальных обновлений рабочих процессов для уменьшения частоты обмена данными между рабочими процессами. Мы распространяем стохастический экстраградиентный метод на эту очень общую ситуацию и теоретически анализируем скорость его сходимости в строго монотонных, монотонных и немонотонных (когда существует решение Минти) условиях. Предоставленные скорости явно демонстрируют зависимость от характеристик сети (например, времени смешивания), счетчика итераций, неоднородности данных, дисперсии, количества устройств и других стандартных параметров.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *