Исследования Яндекса — О картинках в картинках
20 апреля 2018. По данным Яндекс.Картинок
За месяц сервис Яндекс.Картинки отвечает более чем на миллиард запросов из России. Люди ищут самые разные вещи: фотографии животных, фотографии татуировок с этими животными, обои для рабочего стола с этими татуировками. Когда хотят найти изображения определённого типа, дописывают уточнения, например «рисунок», «обои» или «тату». Мы посчитали запросы с такими словами и выяснили, изображения каких типов ищут чаще всего и что хотят на них увидеть.
Мы взяли слова из всех запросов к Картинкам, привели их к начальной форме (например, для существительных это именительный падеж и единственное число), упорядочили по популярности и выбрали 15 самых частотных слов, обозначающих тип изображения, — например, «фото» или «тату». Затем повторили ту же операцию — с той разницей, что теперь искали слова, которые чаще всего встречаются в запросах вместе с упоминанием типа, например [цветы фото] или [дракон тату]. Так мы получили топы для каждой категории изображений.
В некоторых категориях важно было определить популярность не только отдельных слов, но и словосочетаний: без этого было бы не ясно, например, карты какой Америки ищут чаще — Северной или Южной. В таких случаях метод немного усложнялся: каждый запрос мы делили не только на слова, но и на сочетания из двух слов (биграммы), а потом составляли из них общий топ-1000. Если в него одновременно попадали и слово, и включающая его биграмма, то из частотности слова вычитали частотность биграммы. Таким образом, из топа ушли слова, которые чаще всего встречались в составе популярного сочетания: например, в топ обоев попал «подводный мир», а просто «мир» — нет. Если же слово часто встречалось в запросах само по себе или в других сочетаниях, то есть не было обязано своим успехом одной популярной биграмме, то оно оставалось в топе наряду с ней — так получилось с «парком» и «национальным парком».
Когда люди ищут фотографии, их обычно интересует объект съёмки, чаще всего — девушки. Многие хотят найти на снимках идеи для причёски, маникюра или дизайна кухни. Другим просто любопытно посмотреть на жён и детей знаменитостей.
При поиске картинки часто указывают не что на ней должно быть, а какая она. Судя по запросам, идеальная картинка — прикольная, смешная, красивая и нравится детям.
Чаще всего в запросах из этой категории встречаются слова, определяющие тип рисунка, например «карандашом» и «по клеточкам». Нам показался интереснее другой популярный вид уточнений — указание темы рисунка.
Чтобы украсить рабочий стол, чаще всего ищут просто пейзаж, не важно какой. За ним следуют горы и птицы, животные вообще и медведи в частности. Городские виды людей тоже интересуют, в первую очередь московские и петербургские.
Хочу такую картинку
Показать весь топ
Скрыть топ
Карты в виде картинок ищут в первую очередь для учёбы — контурные, физические, политические. Или для того, чтобы спланировать отпуск: об этом говорит популярность запросов вроде [карта испании на русском языке с городами и курортами]. Или чтобы лучше представить, о чём идёт речь в новостях, — например, когда ищут карту Сирии. Мы нарисовали условные изображения стран, мест и объектов, популярных в этой категории. Число квадратиков, из которых состоят фигуры, пропорционально числу запросов.
Схемы на Картинках ищут в самых разных ситуациях: когда разбираются с электроприборами или мебелью, хотят что-нибудь связать или сплести, выбирают места в концертном зале и так далее.
Чаще всего хотят раскрасить героев мультфильмов — например, фей из «Клуба Винкс» или Машу с Медведем. Есть и такие раскраски, которые детям выдают по случаю — на Новый год или чей-нибудь день рождения.
Иногда людям важно не только что изображено на картинке, но и на каком фоне находится объект, например [цветы на белом фоне]. Фон может интересовать и сам по себе — [новогодний фон для фотошопа], [розовый фон для презентации] и так далее.
Таблица химических элементов заметно опережает в поиске таблицу умножения. Но, вообще, половина самых популярных таблиц — математические.
№ | Название |
---|
По открыткам можно судить о популярности праздников. Лидируют, конечно, дни рождения и Новый год, а вот на девятом месте просто доброе утро.
Запросы со словом «дизайн» относятся в первую очередь не к интерьерам, как можно было ожидать, а к маникюру — [дизайн ногтей красный с золотом], [ногти с черным дизайном].
Самый популярный художник на Картинках — Винсент ван Гог, его имя чаще всего встречается в запросах со словом «картина». Единственный современный художник, попавший в топ, — Вася Ложкин.
Мы составили сразу два списка: в одном — популярные типы татуировок, в другом — части тела, на которых их хотят увидеть. Чтобы подсветить татуировку на картинке, наведите курсор на строчку в топе типов. Второй список тоже отзывается на курсор: для каждого места можно посмотреть свой топ татуировок.
Нажмите на строчку, чтобы увидеть самые популярные татуировки для этого места.
Запросы с упоминанием определённого стиля чаще всего посвящены оформлению интерьера: [кухни в стиле прованс], [шторы в классическом стиле], [квартира в стиле хай тек]. Исключение составляют бохо и греческий — в этих стилях обычно ищут одежду, а также русский и аниме — в них ищут что угодно, от кукол до противогазов. Деловым стилем интересуются, когда хотят выбрать одежду и подготовить презентацию.
Образцы чаще всего нужны, чтобы разобраться с документами или подготовить что-нибудь для школы. Больше всего сложностей вызывают резюме, заявления на отпуск и на увольнение по собственному желанию, а также портфолио ученика начальной школы.
большинство подкастов — про общество и культуру, каждый месяц запускается по 400 шоу — Медиа на vc.
ru{«id»:13729,»url»:»\/distributions\/13729\/click?bit=1&hash=5ff17a9c9b385618eed95aa3798b45a5f63a0eda767e2586351579b92706300e»,»title»:»\u041a\u0430\u043a\u0438\u0435 \u043c\u0435\u0442\u0430\u043b\u043b\u044b \u043c\u043e\u0433\u0443\u0442 \u0441\u0442\u0430\u0442\u044c \u00ab\u043d\u043e\u0432\u044b\u043c \u0437\u043e\u043b\u043e\u0442\u043e\u043c\u00bb»,»buttonText»:»»,»imageUuid»:»»,»isPaidAndBannersEnabled»:false}
Самые длинные выпуски — об играх, самые короткие — об изучении языков.
4265 просмотров
«Яндекс» опубликовал исследование о подкастах в России на основе данных «Яндекс.Музыки» и собственного поиска: про их количество, жанры, среднюю длительность и слушателей.
За пять лет количество поисковых запросов о подкастах в «Яндексе» выросло в четыре раза. В 2020 году больше 16 млн жителей больших городов слушали подкасты хотя бы раз в месяц.
Поисковые запросы о подкастах «Яндекс»
Около 3000 подкастов в каталоге обновлялись в течение последнего месяца. За три года количество шоу выросло в восемь раз.
Количество активных подкастов по месяцам «Яндекс»
Количество выпусков подкастов в действующих и неактивных шоу «Яндекс»
Медианная длительность выпуска — около 30 минут. За последние полтора года она сократилась на 10 минут. Из активных подкастов самые длинные выпуски у подкаста о настольной игре Dungeons & Dragons «Бесценный опыт» — в среднем четыре часа, самые короткие у проекта о значении использовании слов «Слова» — 30 секунд.
Подкасты до 30 минут за один раз дослушивают в четырёх случаях из пяти, до 60 минут — в два раза реже. Новые эпизоды публикуются в среднем раз в 10 дней.
Дослушивания подкаста за раз в зависимости от его длины «Яндекс»
Больше всего подкастов в категории «Общество и культура», к ней относится каждое четвёртое шоу. На втором месте — «Наука и образование», на третьем — «Бизнес и работа». У новостных подкастов выпуски выходят в несколько раз чаще, чем в других категориях.
Самые длинные выпуски — об играх (в среднем один час), про футбол и музыкальную индустрию. Самые короткие — в категориях «Детям» (в среднем девять минут), «Изучение языков» и «Фикшн и аудиосериалы».
Самые популярные категории по количеству подкастов «Яндекс»
Категории по общей длительности контента «Яндекс»
Темы подкастов в зависимости от пола и возраста слушателей «Яндекс»
Устройства, на которых чаще слушают подкасты «Яндекс»
В выходные публикуется меньше подкастов, чем в будни. Но прослушиваний почти столько же. Самое популярное время для публикации выпуска — 12:00. С 21:00 до 23:00 происходит всплеск числа прослушиваний — родители ставят детям сказки на ночь, объяснили в «Яндексе».
Количество публикаций подкастов и прослушиваний по дням недели «Яндекс»
Публикации по времени дня «Яндекс»
Количество прослушиваний по времени суток «Яндекс»
Яндекс исследования
Блог
См. ВсеБлижайший соседский поиск соседей
.
Объявление
Статьи приняты в EMNLP 2022
10.11.2022
Объявление
Статьи приняты в NeurIPS 9 20220006 1 октября 2022 г.
Объявление
Документ, принятый в ICML 2022
8 июня 2022
Publications
См.- 9. СамохинСебастьян Ю. СтичАлександр Гасников
NeurIPS,
2022 Оптимальное градиентное скольжение и его применение для распределенной оптимизации в условиях подобия
OptimizationMachine learning theoryDmitry KovalevAleksandr BeznosikovEkaterina BorodichAlexander GasnikovGesualdo ScutariNeurIPS,
2022Optimal Algorithms for Decentralized Stochastic Variational Inequalities
OptimizationMachine learning theoryDmitry KovalevAleksandr BeznosikovAbdurakhmon SadievMichael PersiianovPeter RichtárikAlexander GasnikovNeurIPS,
2022Distributed Methods with Compressed Communication for Решение вариационных неравенств с теоретическими гарантиями
Оптимизация Machine Learning TheoryalsaLeksandr beznosikovpetter Richtárikmichael diskinmax ryabininalexander GasnikovNeurips,
2022
Исследования
См. ВсеКомпьютерная. Компьютерная. генеративное моделирование.
32 публикации
2 сообщения
Обработка естественного языка
Язык является одной из основных форм общения. Мы изучаем методы представления и понимания языка, чтобы упростить взаимодействие человека с компьютером.
21 публикация
1 сообщение
Крупномасштабное машинное обучение
Сегодня для обучения самых мощных моделей часто требуются значительные ресурсы. Наше исследование направлено на то, чтобы сделать крупномасштабное обучение более эффективным и доступным для всего сообщества машинного обучения.
6 публикаций
Теория машинного обучения
Мы изучаем различные аспекты, связанные с теоретическим пониманием моделей и алгоритмов машинного обучения.
22 публикации
2 публикации
Машинное обучение графов
Графики — это естественный способ представления данных из различных областей, таких как социальные сети, молекулы, текст, код и т. д. Мы разрабатываем и анализируем алгоритмы графоструктурирования данные.
10 публикаций
1 пост
Вероятностное машинное обучение
Вероятностное машинное обучение описывает методы, позволяющие делать выводы и делать выводы относительно неизвестных величин. Обычно используется в генеративном моделировании, регрессии и количественной оценке неопределенности.
6 публикаций
Работайте с нами
Присоединяйтесь к нашей исследовательской группе и получите возможность участвовать в прикладных и теоретических исследованиях мирового уровня, получить опыт работы над высокоэффективными проектами и публиковаться на ведущих научных конференциях. Вы будете вносить свой вклад в высокотехнологичные услуги, такие как технологии компьютерного зрения, диалоговые системы, нейронный машинный перевод и беспилотные автомобили.
Присоединяйтесь к нам
Направления исследований Яндекса
Компьютерное зрение
Исследовательская группа Яндекса регулярно вносит свой вклад в сообщество исследователей компьютерного зрения, в основном в области поиска изображений и генеративного моделирования.
32 публикации
2 сообщения
Обработка естественного языка
Язык — одна из ключевых форм общения. Мы изучаем методы представления и понимания языка, чтобы упростить взаимодействие человека с компьютером.
21 публикация
1 сообщение
Крупномасштабное машинное обучение
Сегодня для обучения самых мощных моделей часто требуются значительные ресурсы. Наше исследование направлено на то, чтобы сделать крупномасштабное обучение более эффективным и доступным для всего сообщества машинного обучения.
6 публикаций
Теория машинного обучения
Мы изучаем различные аспекты, связанные с теоретическим пониманием моделей и алгоритмов машинного обучения.
22 публикации
2 сообщения
Машинное обучение на основе графов
Графики — это естественный способ представления данных из различных областей, таких как социальные сети, молекулы, текст, код и т. д. Мы разрабатываем и анализируем алгоритмы для графически структурированных данных.
10 публикаций
1 сообщение
Вероятностное машинное обучение
Вероятностное машинное обучение описывает методы, позволяющие рассуждать и делать выводы относительно неизвестных величин. Обычно используется в генеративном моделировании, регрессии и количественной оценке неопределенности.
6 публикаций
Распределительный сдвиг
Распределительный сдвиг — это несоответствие между данными обучения и развертывания, которое повсеместно встречается в реальном мире. Изучение этого явления может сделать системы машинного обучения более безопасными и надежными.
5 публикаций
2 сообщения
Оценка неопределенности
Оценка неопределенности позволяет определить, когда модели машинного обучения производят модели. Это имеет решающее значение в приложениях машинного обучения с высоким риском, таких как автономные транспортные средства и медицинское машинное обучение.
7 публикаций
2 сообщения
Повышение градиента
Повышение градиента итеративно объединяет слабых учеников (обычно деревья решений) для создания более сильной модели. Он достигает самых современных результатов на табличных данных с разнородными функциями.
10 публикаций
1 сообщение
Оптимизация
Большинство алгоритмов машинного обучения строят модель оптимизации и изучают ее параметры на основе заданных данных. Таким образом, разработка эффективных и действенных методов оптимизации имеет существенное значение.
12 публикаций
Машинный перевод
Языковые барьеры препятствуют глобальному общению и доступу к мировым знаниям. Улучшая системы машинного перевода, мы надеемся облегчить обмен культурой и информацией.
9 публикаций
Обработка речи
Речь является важной модальностью данных и связана с такими приложениями, как распознавание речи и синтез речи, которые являются основными технологиями в таких продуктах, как голосовые помощники.
5 публикаций
Поиск ближайшего соседа
Поиск ближайшего соседа — давняя проблема, возникающая в большом количестве приложений машинного обучения, таких как службы рекомендаций, поиск информации и другие.
12 публикаций
2 сообщения
Генеративные модели
Генеративные модели в компьютерном зрении являются мощным инструментом для различных приложений.
9 публикаций
2 сообщения
Сегментация
Сегментация изображения — это давняя проблема компьютерного зрения на уровне пикселей, которая также может служить испытательным стендом для других задач плотного прогнозирования.
1 публикация
Представления
Создание высококачественных представлений данных является необходимым компонентом обычных конвейеров машинного обучения.
8 публикаций
Ранжирование
Обучение ранжированию является центральной проблемой поиска информации.