Исследования Яндекса — Из чего сделаны песни о любви
14 февраля 2023. По данным Яндекс Музыки
Ко Дню святого Валентина мы решили изучить тексты песен о любви. Узнали, о чём поют исполнители любовной лирики, каких песен больше — грустных или радостных, а также чем отличаются в этом отношении разные жанры. Исследование во многом опирается на опыт нашего старого проекта про русский рэп.
Задачу отобрать любовные песни поручили
: показывали им тексты и просили выбрать те, что посвящены любви. Они разметили чуть более 20 тысяч русскоязычных треков — по несколько тысяч в каждом из пяти популярных жанров: инди, поп, рок, рэп и шансон. К любовным песням толокеры отнесли около 8,5 тысячи треков, то есть примерно 40 %.
Самое частотное
в любовных песнях — любовь: оно встречается почти в 40 % отобранных текстов. Следом идут знать, хотеть, глаза, один, любить, сердце и ночь. Все эти слова характерны для любовной лирики, то есть встречаются в ней чаще, чем во всех остальных треках.
Но популярность не всегда совпадает с характерностью. Например, жизнь, дорога или человек довольно частотны в любовных текстах, но звучат там в полтора-два раза реже, чем в остальных песнях. Такие слова как небо, свет и ветер встречаются в двух группах текстов почти одинаково часто. Ниже показаны примеры слов с разной характерностью для любовной лирики.
По данным Яндекс Музыки
По данным Яндекс Музыки
Самое характерное для любовных песен существительное — аромат, глагол — разлюбить, прилагательное — карий. Соответствующая тройка нехарактерных слов — прокурор, пахать и грозный. Пара противоположных наречий: вдвоём и лихо, числительных: двое и лям, междометий: прощай и угу.
Типичные для любовных текстов представители флоры и фауны — ромашка и роза, их антиподы — крыса и медведь. Характерные предметы — простыня и бокал, нехарактерные — микрофон и лопата. Самые романтичные продукты питания — шоколад и кофе, самые неромантичные — хлеб и пиво.
О чём поют в любовных песнях: характерные и нехарактерные слова
По данным Яндекс Музыки
О чём поют в любовных песнях: характерные и нехарактерные слова
По данным Яндекс Музыки
Действие песен о любви обычно разворачивается осенью или летом. Типичное время суток — ночь или вечер. Самая «любовная» стихия — огонь, сторона света — восток, цвет — алый, оттенок — яркий, а вкус, конечно, сладкий.
По данным Яндекс Музыки
По данным Яндекс Музыки
Самыми романтичными оказались исполнители поп-музыки: в этом жанре любви посвящены более 70 % текстов. Реже всего о любви поют рэперы и рокеры.
По данным Яндекс Музыки
По данным Яндекс Музыки
Для каждого жанра мы отобрали по тысяче самых популярных на Яндекс Музыке
, сравнили частотность звучащих там
и нашли самые характерные. Для любовной поп-музыки это, например, винишко, наболеть и по-английски. Для инди — нездоровый, цветочный и безудержный. Для русского шансона — черёмуха, девчоночка и мелькнуть.
По данным Яндекс Музыки
По данным Яндекс Музыки
По данным Яндекс Музыки
Мы просили толокеров не только выбрать песни о любви, но и определить их настроение: радостное оно, нейтральное или грустное. Оказалось, что любовная лирика в большинстве случаев печальная: песен с хорошим настроением всего около 10 % — в пять раз меньше, чем с плохим. Самые оптимистичные жанры — поп и рэп, самые пессимистичные — инди и рок.
По данным Яндекс Музыки
Судя по частотным глаголам, в грустных любовных песнях обычно прощают и отпускают, плачут, убивают и умирают, молчат и кричат. А в радостных танцуют, нравятся, улыбаются, манят, крадут (любовь, сердца, сны и так далее), сияют и целуются.
Самые частотные слова из радостных и грустных песен о любви
Из тех, что в песнях одного типа встречаются минимум в два раза чаще, чем другого.
По данным Яндекс Музыки
Самые частотные слова из радостных и грустных песен о любви
Из тех, что в песнях одного типа встречаются минимум в два раза чаще, чем другого.
По данным Яндекс Музыки
Яндекс.Маркет и GfK: Развитие онлайн-торговли в России
Число онлайн-покупателей в России продолжает быстро расти. По данным GfK на июль 2018 года, 35% россиян хотя бы раз за последние полгода покупали товары в интернете. С весны прошлого года этот показатель вырос на 17%.
Чтобы выяснить, что, где и как покупают россияне, что мотивирует их приобретать товары онлайн, Яндекс.Маркет и GfK провели опрос. В нём приняли участие 5470 человек в возрасте от 16 до 55 лет, проживающие в российских городах.
В прошлые годы GfK опрашивала россиян, проживающих в городах с населением от 100 тысяч человек. В этом году решили расширить выборку и включить всё городское население России. В тех частях исследования, где сравниваются результаты нынешнего и предыдущих опросов, учитываются только ответы жителей городов 100+. Остальные выводы сделаны на основании ответов всех респондентов. Исследование проводилось в сентябре 2018 года.
Коротко о главном
Экономия
Основной мотив, который приводит людей в онлайн-магазины, — желание сэкономить. Людей привлекает также возможность сравнивать цены, искать выгодные предложения и делать покупки в любое время и в любом месте.
Топ товаров по числу онлайн-покупателей в последние годы не меняется. И в российских, и в зарубежных интернет-магазинах больше всего респондентов заказывают одежду и обувь. Кроме одежды в России многие покупают мелкую бытовую технику и косметику, в Китае — смартфоны и товары для детей, в других странах — косметику и опять же детские товары.
Много скидок
Больше 70% последних покупок были сделаны со скидкой или по акции. При этом почти 60% опрошенных были бы готовы купить тот же товар без специальных условий. Самые распространённые акции — прямые скидки и бесплатная доставка. Российские магазины заметно чаще зарубежных привлекают покупателей промокодами, зачислением баллов на карту и скидками по программам лояльности.
Но мало пообещать скидку, обещание придется выполнить. Больше 90% россиян хотя бы иногда сравнивают цены на разных сайтах, чтобы проверить, правда ли магазин снижает цены, когда предлагает скидки. Почти 40% делают это всегда.
Мобильный шопинг растет
Судя по тому, как опрошенные оформляли свой последний заказ, россияне по-прежнему чаще всего совершают покупки с компьютера. При этом растёт доля заказов, оформленных с телефонов и планшетов. По данным опроса, в зарубежных магазинах больше покупают с мобильных устройств из-за простоты оплаты, более удобных приложений и наличия скидок при покупке со смартфона.
Спонтанные покупки и шоппинг как развлечение
Несмотря на то, что онлайн-шоппинг очень рациональный, все равно практически каждая пятая покупка совершается спонтанно (18% в российских магазинах, в иностранных — 22%).
А еще практически для каждого десятого онлайн-покупателя в России покупки в интернете это возможность хорошо провести время и найти интересные товары.
Читайте публичную версию отчета по исследованию на сайте Яндекс.
Исследования Яндекса
Блог
Просмотреть всеПредставляем новые наборы гетерофильных графов
Исследования
6 марта 2023 г. Особенности табличного глубокого обучения
Исследования
2 декабря 2022 г.
Объявление
Доклады приняты на ICML 2023
9 мая 2023 г.
Объявление
Доклады приняты на ICLR 2023
6 февраля 2023 г.
Объявление
Документы приняты в EMNLP 2022
10 ноября 2022 г.
Публикации
Просмотреть всеКритический взгляд на оценку GNN в условиях гетерофилии: действительно ли мы делаем Прогресс?
Графовое машинное обучениеОлег ПлатоновДенис КузнеделевМихаил ДискинАртем БабенкоЛюдмила ПрохоренковаICLR
Взгляд на мини-пакетный SGD через производящие функции: условия сходимости, фазовые переходы, преимущества от отрицательного импульса
ОптимизацияМаксим ВеликановДенис КузнеделевДмитрий ЯроцкийICLR
Градиентный бустинг выполняет вывод гауссовского процесса
Теория машинного обученияОценка неопределенности Градиентный бустингАлексей УстименкоАртем БеляковЛюдмила ПрохоренковаICLR
Понимание скрытых кодов DDPM с помощью оптимального транспорта
Теория машинного обученияВалентин ХрулковГлеб РыжаковАндрей ЧертковИван ОселедецICLR
Направления исследований
Просмотреть всеКомпьютерное зрение
Исследовательская группа Яндекса регулярно вносит свой вклад в сообщество исследователей компьютерного зрения, в основном в области поиска изображений и генеративного моделирования.
32 публикации
2 публикации
1 набор данных
Обработка естественного языка
Язык — одна из ключевых форм общения. Мы изучаем методы представления и понимания языка, чтобы упростить взаимодействие человека с компьютером.
21 публикация
1 сообщение
2 набора данных
Крупномасштабное машинное обучение
Сегодня для обучения самых мощных моделей часто требуются значительные ресурсы. Наше исследование направлено на то, чтобы сделать крупномасштабное обучение более эффективным и доступным для всего сообщества машинного обучения.
6 публикаций
Теория машинного обучения
Мы изучаем различные аспекты, связанные с теоретическим пониманием моделей и алгоритмов машинного обучения.
24 публикации
2 сообщения
Машинное обучение графов
Графики — это естественный способ представления данных из различных областей, таких как социальные сети, молекулы, текст, код и т. д. Мы разрабатываем и анализируем алгоритмы графоструктурирования данные.
11 публикаций
2 сообщения
1 набор данных
Вероятностное машинное обучение. Обычно используется в генеративном моделировании, регрессии и количественной оценке неопределенности.
6 публикаций
Работайте с нами
Присоединяйтесь к нашей исследовательской группе и получите возможность участвовать в прикладных и теоретических исследованиях мирового уровня, получить опыт работы над высокоэффективными проектами и публиковаться на ведущих научных конференциях. Вы будете вносить свой вклад в высокотехнологичные услуги, такие как технологии компьютерного зрения, диалоговые системы, нейронный машинный перевод и беспилотные автомобили.
Присоединяйтесь к нам
Публикации
5 из 199 публикаций
Критический взгляд на оценку GNN в условиях гетерофилии: действительно ли мы добиваемся прогресса?
Машинное обучение на графахОлег ПлатоновДенис КузнеделевМихаил ДискинАртем БабенкоЛюдмила ПрохоренковаICLR
Классификация узлов — это классическая задача обучения представлению графов, в которой нейронные сети графов (GNN) недавно добились хороших результатов. Однако часто считается, что стандартные GNN хорошо работают только для гомофильных графов, то есть графов, в которых ребра имеют тенденцию соединять узлы одного класса. Графы без этого свойства называются гетерофильными, и обычно предполагается, что для достижения высокой производительности на таких графах требуются специальные методы. В данной работе мы оспариваем это предположение. Во-первых, мы показываем, что стандартные наборы данных, используемые для оценки моделей, специфичных для гетерофилии, имеют серьезные недостатки, что делает результаты, полученные с их использованием, ненадежными. Наиболее существенным из этих недостатков является наличие большого количества дублирующихся узлов в наборах данных Squirrel и Chameleon, что приводит к утечке данных трейн-теста. Мы показываем, что удаление повторяющихся узлов сильно влияет на производительность GNN в этих наборах данных. Затем мы предлагаем набор гетерофильных графиков с различными свойствами, которые, по нашему мнению, могут служить лучшим эталоном для оценки производительности GNN в условиях гетерофилии. Мы показываем, что стандартные GNN достигают хороших результатов на этих гетерофильных графах, почти всегда превосходя специализированные модели. Наши наборы данных и код для воспроизведения наших экспериментов доступны по адресу https://github.com/yandex-research/heterophilous-graphs
Взгляд на мини-пакетный SGD через производящие функции: условия сходимости, фазовые переходы, эффект от отрицательного импульса
ОптимизацияМаксим ВеликановДенис КузнеделевДмитрий Яроцкий это фундаментальный алгоритм для обучения больших прогностических моделей . В этой статье мы разрабатываем новую аналитическую основу для анализа усредненных по шуму свойств мини-пакетного SGD для линейных моделей при постоянных скоростях обучения, импульсах и размерах пакетов. Наша ключевая идея состоит в том, чтобы рассмотреть динамику вторых моментов параметров модели для специального семейства «спектрально-выразимых» аппроксимаций. Это позволяет получить явное выражение для производящей функции последовательности значений потерь. Анализируя эту производящую функцию, мы находим, в частности, что 1) динамика SGD демонстрирует несколько сходящихся и расходящихся режимов в зависимости от спектральных распределений задачи; 2) сходящиеся режимы допускают явные условия устойчивости и явные асимптотики потерь в случае степенных спектральных распределений; 3) оптимальная скорость сходимости может быть достигнута при отрицательных импульсах. Мы проверяем наши теоретические предсказания обширными экспериментами с MNIST и синтетическими задачами и находим хорошее количественное согласие.Повышение градиента выполняет вывод о гауссовском процессе сходится к решению определенная проблема регрессии Kernel Ridge. Таким образом, мы получаем сходимость к апостериорному среднему гауссовского процесса, что, в свою очередь, позволяет нам легко преобразовать усиление градиента в выборку из апостериорного значения, чтобы обеспечить лучшие оценки неопределенности знаний посредством оценки Монте-Карло апостериорной дисперсии.
Мы показываем, что предлагаемый пробоотборник позволяет лучше оценивать неопределенность знаний, что приводит к улучшенному обнаружению вне предметной области.Понимание скрытых кодов DDPM через оптимальную транспортировку
Теория машинного обученияВалентин ХрулковГлеб РыжаковАндрей ЧертковИван ОселедецICLR
В последнее время диффузионные модели превзошли альтернативные подходы к моделированию распространения естественных изображений. Такие модели диффузии допускают детерминированную выборку через ОДУ потока вероятностей, что приводит к скрытому пространству и карте кодировщика. Несмотря на важные практические приложения, такие как оценка вероятности, теоретические свойства этой карты еще не полностью поняты. В настоящей работе мы частично рассматриваем этот вопрос для популярного случая подхода VP-SDE (DDPM). Мы показываем, что, возможно неожиданно, карта кодировщика DDPM совпадает с оптимальной транспортной картой для обычных распределений; мы подтверждаем это утверждение обширными численными экспериментами с использованием расширенного решателя тензорных последовательностей для многомерного уравнения Фоккера-Планка. Мы предоставляем дополнительные теоретические доказательства для случая многомерных нормальных распределений.
Децентрализованный локальный стохастический экстраградиент для вариационных неравенств охастические вариационные неравенства (ВИ) на неограниченных областях с неоднородными (не -IID) и распространяется на множество устройств. Мы делаем очень общее предположение о вычислительной сети, которая, в частности, охватывает настройки полностью децентрализованных вычислений с изменяющимися во времени сетями и централизованными топологиями, обычно используемыми в федеративном обучении. Кроме того, можно выполнить несколько локальных обновлений рабочих процессов для уменьшения частоты обмена данными между рабочими процессами. Мы распространяем стохастический экстраградиентный метод на эту очень общую ситуацию и теоретически анализируем скорость его сходимости в строго монотонных, монотонных и немонотонных (когда существует решение Минти) условиях. Предоставленные скорости явно демонстрируют зависимость от характеристик сети (например, времени смешивания), счетчика итераций, неоднородности данных, дисперсии, количества устройств и других стандартных параметров.