Лучшие голосовые помощники, рейтинг
Искусственный интеллект уже давно не миф для обычных пользователей, а нейросети и содержащие их сервисы стали настолько распространены, что для их использования достаточно, только подключения к интернету. Он проникает в дома людей под видом умных колонок и мобильных приложений для смартфонов. Электронные ассистенты становятся гораздо более функциональными, и теперь производители «сталкивают их лбами», пытаясь понять, какой голосовой помощник умнее.
Siri
Фирма-производитель была первой, кто добавил русский язык в программу. Siri является самой простой в управлении, она понимает короткие команды. Искусственный интеллект подстраивается под человека, начинает лучше откликаться на хозяина. Распознавание голоса значительно возрастает через несколько недель использования. Голосовой помощник является лучшим выбором для обладателей техники Apple: iPhone, iPad, Mac, Watch, TV. Он встраивается в автомобили с функцией CarPlay. Однако и функциональность зависит от устройства, старые смартфоны не поддерживают большинство команд.
Яндекс Алиса
Отечественные производители не отстают от современных трендов, предлагая собственные голосовые помощники. Яндекс Алиса – их лучшее достижение, которое не уступает программе от Amazon и Microsoft. Во многом она их превосходит, ведь функционал рассчитан на российского пользователя. Алиса рассказывает о погоде и последних новостях, включает музыку, запускает программы, поддерживает беседу. Она работает в мобильном Яндекс.Браузере, на Андроид и iOS. Покупатели умиляются Алисе, когда она рассказывает сказки или шутит. Голосовому помощнику хватает интеллекта говорить разными голосами, играть, уточнять детали, давать рекомендации. Он конвертирует валюту, предупреждает о пробках. После каждого задания Алисе можно ставить оценки. Это подсказывает разработчикам, в каком направлении двигаться.
Google Assistant
Google был одним из первых, кто сделал голосовых помощников доступными. Google Assistant – это обновленная версия программы, которая работает на Андроид, iOS и в браузере Chrome. Она понимает разговорную речь, поддерживает самые простые диалоги. Ассистент постепенно обучается функциям, которые нужны пользователю. Например, может звонить, бронировать билеты и места в ресторанах, “висеть” на телефоне в ожидании ответа оператора. Голосовой помощник проложит лучший маршрут до места назначения, выдаст информацию о ресторанах и достопримечательностях. Он использует Google Карты и остальные сервисы компании. Занятые люди узнают планы на день и управляют календарем голосом, получают напоминания о встречах. Ассистент за секунды добавляет и удаляет заметки, ставит будильник и таймер, составляет список покупок.
Microsoft Cortana
Изначально была доступна на ПК и ноутбуках этого производителя. Однако со временем голосовой помощник появился на смартфонах с операционной системой Android. В отличие от программ Google и Apple, которые используют браузер Chrome, Кортана задействует разработку Microsoft Bing. Ассистент добавлен в умный динамик Harmon Kardon Invoke и консоль Xbox One. В отличие от Siri, которая полностью зависит от голосовых команд, Microsoft Cortana является полноценным помощником. Можно вводить уникальные функции. Ассистент их запомнит и будет выполнять автоматически. Например, снизит звук во время важной встречи. Это очень помогает, если голосовая команда не распознается. Ассистент ведет записную книжку, подстраивается под пользователя. Он напомнит о матче любимой команды, подскажет наиболее посещаемый ресторан.
Amazon Alexa
Появилась в колонке производителя, постепенно переместившись на мобильные устройства. Она является частью умного дома, контролирует огромное количество вещей. Например, открывает жалюзи и двери гаража, включает свет и телевизор, настраивает термостат и систему кондиционирования. Искусственный интеллект обучается, Amazon регулярно выпускает обновления. В отзывах покупатели с восхищением говорят о функциональности ассистента. Он читает утренние новости, проигрывает любимые песни, ставит будильники, диктует аудиокниги, вызывает такси. Вместе с Amazon Alexa проходят тренировки, планируется расписание на день, совершаются звонки. Несмотря на самый обширный функционал, пользоваться помощником просто.
Ирина — опенсорс русский голосовой помощник. Offline-ready / Хабр
— Ирина, таймер…
— Ставлю таймер на пять минут.
Вполне себе обыденная история из моего быта. Я таки сделал собственного автономного голосового помощника.
TL;DR> Ирина вполне неплохо работает дома 24×7.
Потребуется установить Python 3.5+ и зависимости через pip (немного знаний Python).
Скиллы «из коробки»: таймер, погода, контроль медиа (громче/тише/дальше), контроль плеера MPC-HC, запуск медиа из папки, расписание ближайших электричек, «подбрось кубик/монетку».
Плагинами добавляются: другие скиллы, Text-to-Speech и Speech-to-Text движки.
Мотивация
За каждым проектом стоят причины, побудившие автора им заняться. Давайте сначала немного о них.
Во-первых, я не в восторге, что общедоступные голосовые помощники контролируются корпорациями. Я не могу точно сказать, что X порекомендует моему ребенку на запрос «мультики» и что покажет ему на Ютубе. Я бы предпочел контролировать это самостоятельно, пусть на это уйдёт и несколько больше времени.
Во-вторых, оффлайн. Почти везде голос распознаётся на серверах, и это а) потенциально небезопасно, б) есть кейсы (например, дача), где стабильный онлайн не очень-то доступен.
В-третьих, четкая работа помощника по командам. Мне хотелось бы точно знать, что происходит, когда я произношу то или иное слово. Идея «поболтать с Алисой» мне несколько чужда — в частности, потому, что я не могу до конца доверять мотивациям людей, её создающим. Если брать ребенка, то мне бы хотелось, чтобы он учился командовать компьютером, а не болтать с ним; в конце концов, именно однозначно понимаемый набор команд можно назвать алгоритмом.
В-четвертых, короткие команды. Наверное, их можно настроить и в других помощниках, но тут это сделать гораздо проще — можно их просто запрограммировать.
В-пятых, сложные сценарии. Если весь код у вас на руках, то сделать при необходимости сценарий в духе «реши десять арифметических задачек, а потом можешь посмотреть мультик» гораздо проще.
Если вы в первом приближении разделяете часть моих мотиваций — возможно, Ирина вам подойдет.
Архитектурные компромиссы
Нельзя объять необъятное
При создании этого проекта я заложил в него некоторые компромиссы. Они усложнят работу в одном случае, и упростят в другом. Давайте с ними ознакомимся, прежде чем переходить к технической части.
Основная цель проекта — дать программисту возможность быстро дополнять навыки голосового помощника и настраивать их под себя.
Установка помощника сделана больше для программиста на Python, нежели для конечного пользователя. Потребуется скачать проект с Github, установить зависимости через pip, и запустить Python-файл. Зато дописывать проще. (Я не против, если кто-то упакует это в EXE, но я сам не чувствую в этом необходимости)
Установка плагинов.
Плагины надо кинуть в папку plugins, а после их запуска можно настроить их JSON-конфиг (для тех, у кого предусмотрены настройки) в папке options. Возможно, имело смысл сделать какой-нибудь онлайн-репозиторий, и механизм установки, но я делал быстро и максимально просто.
Мультиязычность. Мультиязычность бы потребовала умение обрабатывать разные языки (определенная сложность парсинга команд), а также каждый раз работать с локализованными строками. Я посчитал, что её поддержание обойдется слишком дорого программисту, пишущему «для себя». Поэтому многоязычность плагинов не поддерживается — всё только на русском, но просто. (Ядро поддерживает многоязычность, т.к. там не так много языкозависимых строк. При желании вы можете просто переписать нужные вам плагины на нужный вам язык. Также можно подключить другие Text-to-Speech и Speech-to-Text движки, и работать на другом языке)
Не Python-style кода (личное). С Python я начал работать не так давно, и до сих пор много работаю на других языках.
Поэтому при написании кода я часто использую типовое ООП, хотя возможно, что-то можно было сделать компактнее.
Если указанные компромиссы вас не отпугнули — думаю, имеет смысл познакомиться с Ириной.
Быстрый старт
Скачайте проект с Github
Для быстрой установки всех требуемых зависимостей можно воспользоваться командой:
pip install -r requirements.txt
Для запуска запустите файл runva_vosk.py из корневой папки. По умолчанию он запустит оффлайн-распознаватель vosk для распознавания речи с микрофона, и pyttsx движок для озвучивания ассистента (стандартный движок Windows для синтеза речи).
После запуска проверить можно простой командой — скажите «Ирина, привет!» в микрофон
Общая логика
Запуск всех команд начинается с имени ассистента (настраивается в options/core.json, по умолчанию — Ирина). Так сделано, чтобы исключить неверные срабатывания при постоянном прослушивании микрофона. Далее будут описываться команды без префикса «Ирина».
Плагины
Поддержка плагинов сделана на собственном движке Jaa.py — минималистичный однофайловый движок поддержки плагинов и их настроек.
Плагины располагаются в папке plugins и должны начинаться с префикса «plugins_». Плагины задают навыки/скиллы голосового помощника.
Настройки плагинов, если таковые есть, располагаются в папке «options» (создается после первого запуска).
Готовые плагины
С Ириной поставляются плагины, которые закрывают большую часть обыденных кейсов использования голосового помощника (если вы, конечно, не собираетесь с ним общаться). Для каждого плагина написано, требуется ли онлайн. Для отключения удалите его из папки.
plugin_greetings.py — приветствие (оффлайн). Пример команды: «ирина, привет»
plugin_timer.py — таймер (оффлайн). Примеры: «таймер, таймер шесть минут, таймер десять секунд, таймер десять» (без указания единиц ставит на минуты — «таймер десять» — на десять минут. Просто «таймер» ставит на пять минут)
plugin_mediacmds.py — команды управления медиа (оффлайн). Пример: «дальше, громче, тише, сильно громче, сильно тише, пауза». (Если установлено mpcIsUseHttpRemote, то сначала делается попытка вызвать команду плеера MPC-HC, если не удается — используется эмуляция мультимедийных клавиш)
plugin_mpchcmult.py — проигрывание мультиков через MPC-HC из определенной папки (оффлайн). Пример «мультик <название_мультика>». Папка задается в конфиге. При вызове команды в папке ищется файл с соответствующим названием <название_мультика> и любым расширением. Если найден — запускается на проигрывание. (Как можно догадаться, этот плагин предназначен для показа отобранных медиа без обращения к ютубу.)
plugin_random.py — рандом (оффлайн). Примеры: «подбрось|брось кубик|монетку». Содержит примеры парсинга дерева команд (команды можно задавать деревом). Больше демонстрационный плагин.
plugin_weatherowm. py — погода (онлайн). Примеры: «погода, погода завтра, погода послезавтра, прогноз погоды». Требует установки в конфиге бесплатного API-ключа отсюда, а также местоположения пользователя.
plugin_yandex_rasp.py — расписание ближайших электричек через Яндекс.Расписания. Пример: «электричка, электрички». Требует установки в конфиге бесплатного API-ключа для личных нужд (до 500 запросов в сутки) отсюда, а также станций отправления и назначения. (Если вы ездите на электричке — фраза «ирина, электричка» очень удобна для проверки расписания)
plugin_tts_pyttsx.py — (оффлайн) позволяет делать TTS (Text-To-Speech, озвучку текста) через pyttsx движок. Используется по умолчанию.
plugin_tts_console.py — (оффлайн) заглушка для отладки. Вместо работы TTS просто выводит текст в консоль.
Свои Text-to-Speech и Speech-to-Text движки
По умолчанию для распознания речи используется движок VOSK, для синтеза — Windows (голос Irene).
Дописать свои варианты вполне можно, это стандартная операция. Детали — в Github.
Уже доступен STT через модуль SpeechReсognition (онлайн-распознавание от Гугла и пр.), а также TTS через Silero (нейросетевая генерация оффлайн). Мне не очень понравился результат Silero (хотя сам проект прекрасен) — генерируется дольше, задержка в несколько секунд, а также есть «металлические» шумы, но, возможно, он подойдет вам. (Кстати, в одном из комментариев @putnik поделился собственным анализом доступных движков TTS и STT.)
Кстати, имя помощника тоже настраивается в файле конфигурации — так что если нужно, можете сделать, чтобы он откликался на имя «Джарвис». И можно поставить мужской голос, конечно.
Аналоги
Честно говоря, я начал писать свой проект без анализа аналогов. Ну, точнее, беглый гуглеж позволил мне найти прекрасную хабрастатью @EnjiRouz Пишем голосового ассистента на Python, а также соответствующий репозиторий, который и послужил основой для проекта.
Правда, например, код для получения погоды c OpenWeatherMap пришлось полностью переписать, потому что они перестали поддерживать старое API.
Лишь позднее, в декабре на хабре появилась статья Программируем умный дом, а к ней довольно интересный коммент putnik, который попробовал самые разные системы. Процитирую:
Ну и более конкретно прокомментирую часть про голосовых ассистентов, так как я этим сейчас активно занимаюсь:
Один из самых больших проектов на github с открытым кодом голосового помощника называется Leon. Система сделана французом…
…и поэтому поддерживает только два языка: английский и французский. К тому же проект имеет довольно небольшое сообщество и в основном разрабатывается автором. Как следствие, набор модулей, которые обеспечивают интеграцию, довольно скуден.
После, у нас есть JARVIS из Железного Человека. <…> Это позволит вам создавать вашу собственную Сири в пределах отдельно взятой сети.
Интересно, получилось ли у автора создать собственную Сири, или всё же самостоятельная настройка споттера, распознавания голоса и озвучки текста на отдельно взятой малинке всё же сильно выходят за рамки «небольшой конфигурации». Ну, и если ничего не поменялось, то у него была проблема с поддержкой даже не русского, а вообще какой-либо локализации. Так что, вероятно, вам придётся делать форк и переводить все сообщения.
Чуть более популярная чем Jarvis, но уступающая Леону — система Mycroft.
Про эту знаю несколько больше, так как выбрал её и сейчас занимаюсь локализацией. И хорошо, если хотя бы к новому году смогу получить сколько-нибудь работающее решение.
Ядро небольшое, почти всё вынесено в плагины и навыки. Есть какое-никакое сообщество, которое эти навыки пишет и поддерживает. Хотя встречается довольно много говна и палок не самых лучших архитектурных решений. Ядро в интернет ломится за настройками навыков, которые хранятся на сервере, сами навыки за данными. По умному дому более-менее нормальная интеграция есть только с Home Assistant, остальное вам придётся писать с нуля. По музыке есть интеграция со Spotify (если вас не смущает необходимость хранить пароль в открытом виде на чужих серверах).
Лично я немного потыкал Jarvis, который мне показался похожим по архитектуре на мою собственную. Сделан достаточно удобно; но это, вообще говоря, проект, рассчитанный под консольные команды(!) на английском(!). Т.е. адекватная локализация на русский — дело крайне большое; не говоря уже о том, что ряд кейсов плохо укладывается в голосовое, а не консольное управление (например, игра «Быки и коровы»).
В общем, на мой взгляд, проект «Ирина» для русского пользователя — совсем неплохо. С другими проектами придется серьезно решать проблемы локализации. Хотя, конечно, интеграций в аналогах больше — но при желании их можно попытаться портировать под Ирину.
Заключение
Честно говоря, я сам не ожидал, но Ирина вполне себе прижилась у нас в семье.
Самый часто используемый навык — таймер, потому что рядом кухня. Иногда используется погода и электрички. Мультики пока ещё не востребованы, думаю заняться ими позже.
Крутится это все на ноутбуке, который в настоящее время является сервером. Встроенного микрофона хватает на эффективное распознавание с 2-3 метров; хотя, конечно, иногда не срабатывает и приходится либо повторять, либо подходить вплотную.
Загрузка процессора минимальна; думаю, пойдет и на Малинке, но, конечно, не пробовал.
Свои плагины
Честно говоря, у меня уже есть несколько собственных плагинов чисто «под себя».
Например, по «ирина, запусти музыку» открывается Яндекс.Музыка.
Еще у нас есть локальный, не сетевой доставщик неплохой пиццы (PushPizza, если кому интересно). Где-то за полчаса я написал плагин, который проверяет, в каком состоянии доставка — готовится, или едет. Написан алгоритм с использованием библиотеки pyautogui, позволяющей эмулировать ввод пользователя (мышь и клавиатуру):
Открыть страницу доставки
Подождать чуть-чуть
Найти на экране картинку (форму ввода телефона) (да, в pyautogui такое есть из коробки)
Перевести туда мышь и кликнуть
Сэмулировать ввод телефона
Вуаля! Страница со статусом доставки доступна
В общем, вроде писать плагины оказалось несложно. (Если вы вдруг что-то напишете и захотите поделиться, можете кидать ссылки сюда.
Благодарности
@EnjiRouz за проект голосового ассистента, который стал основой (правда, был очень сильно переработан), а также за отличную статью на Хабре: Пишем голосового ассистента на Python
AlphaCephei за прекрасную библиотеку распознавания Vosk.
@putnik за разбор других голосовых помощников и список TTS и STT решений
Github проекта
UPD: Некоторые добавления с момента публикации статьи
Добавлен TTS плагин для RHVoice
Вышла версия 3.x — с возможностью многомашинных инсталляций. На центральном сервере запускается REST/JSON сервер с Ириной (FastAPI). Сервер делает всю работу плюс даже TTS. От клиентов требуется отправлять только распознавать данные с микрофона и отсылать команды серверу. Так что Ирину можно запускать на нескольких машинах в разных комнатах.
Для клиента в базовом варианте (vosk) сделал готовый EXE-файл (auto-py-to-exe), который не привязан к установке Питона.
Его вроде можно запускать вообще где угодно.
Учитывая, что у Ирины теперь есть REST API, при желании можно запилить какие-нибудь интеграции (например, написать клиент для Телеграм и удаленно вызывать команды)
В комментах к статье есть обсуждение с проблемами установки под Linux; возможно, кому-то пригодится
Загрузка языков и голосов для иммерсивного чтения, режима чтения и чтения вслух
Если вы используете средства обучения OneNote, средства обучения в Word и средство чтения вслух в Microsoft 365 и Microsoft Edge, вы можете загружать и применять новые языки и голоса для текста особенности речи.
Важно: Не все языковые пакеты поддерживают преобразование текста в речь. Просмотр языков с возможностями преобразования текста в речь и их различными вариантами голоса.
Установить языки преобразования текста в речь в Windows 10 и Windows 11
В настройках Windows 10 и Windows 11 вы можете установить разные языковые пакеты для перевода и чтения контента на разных языках вслух.
Чтобы установить новый язык,
Откройте меню Пуск на устройстве Windows и выберите Настройки > Время и язык.
Выберите Язык или Язык и регион > Добавьте язык .
Найдите язык в строке поиска или выберите его из списка. Языковые пакеты с функцией преобразования текста в речь будут отмечены значком преобразования текста . Выберите язык, который вы хотите загрузить, затем выберите Далее.
- org/ListItem»>
Далее вы увидите функции, доступные на выбранном вами языке, и их размеры для загрузки. Установите или снимите флажки, чтобы выбрать, какие функции вы хотите установить, а затем выберите Установить .
Установить в качестве языка отображения Windows : переводит функции Windows, такие как «Настройки» и «Проводник», на выбранный вами язык.
Преобразование текста в речь : озвучивает текст на экране.
Распознавание речи : позволяет говорить вместо ввода.
Требуется установка преобразования текста в речь.
6. После установки нового языка перейдите к Language 9.0006 и найдите его в списке предпочитаемых языков . Выберите свой язык и выберите Параметры , чтобы настроить другие языковые параметры, загрузить функции и т. д.
Настройки речи и голоса
Если преобразование текста в речь доступно на вашем языке, вы можете изменить настройки голоса, чтобы изменить голоса и скорость чтения при использовании звуковых функций, таких как «Чтение вслух» в иммерсивном чтении. Вы также можете скачать голосовые пакеты, подключить микрофон для распознавания речи и т. д.
Чтобы изменить настройки голоса:
- Откройте меню Пуск на устройстве Windows и выберите Настройки > Время и язык .
Выберите Речь . Отсюда настройте параметры речи:
Язык речи: выберите раскрывающийся список, чтобы выбрать нужный язык.
Распознавать неродные акценты для этого языка: обнаруживать и переводить разные акценты в языке.
Выберите Начало работы в разделе «Микрофон», чтобы пройти настройку микрофона Cortana.
Установите новый язык преобразования текста в речь в Windows 8.1
В любой версии Windows 8.1 выполните следующие действия:
Открыть Панель управления .
- org/ListItem»>
Щелкните Язык .
-
Выберите Добавить язык .
В открывшемся списке выберите язык, который хотите добавить, а затем нажмите кнопку Добавить внизу списка.
Под добавленным языком нажмите Загрузите и установите языковой пакет .
Windows загрузит и установит языковой пакет. Вам может быть предложено перезагрузить компьютер.
После перезагрузки компьютера для преобразования текста в речь станет доступен новый язык, а средство иммерсивного чтения средств обучения распознает текст на странице и прочитает его на правильном языке.
языков и голосов для преобразования текста в речь, доступных в Windows
Язык (регион) | Windows 10 и Windows 8.1 | Windows 8 | Имя | Пол |
---|---|---|---|---|
Китайский (Гонконг) | Д | Н | Трейси | Женщина |
Китайский (Тайвань) | Д | Д | Ханхан | Женщина |
Китайский (КНР) | Д | Д | Хуэйхуэй | Женщина |
Английский (США) | Д | Д | Зира | |
Английский (США) | Д | Д | Дэвид | Мужской |
Английский (Великобритания) | Д | Д | Хейзел | Женщина |
Французский (Франция) | Д | Д | Гортензия | Женщина |
Немецкий (Германия) | Д | Д | Хедда | Женщина |
Итальянский (Италия) | Д | Н | Женщина | |
Японский (Япония) | Д | Д | Харука | Женщина |
Корейский (Корея) | Д | Д | Хэми | Женщина |
польский (Польша) | Д | Н | Паулина | Женщина |
Португальский (Бразилия) | Д | Н | Мария | Женщина |
Русский (Россия) | Д | Н | Ирина | Женщина |
Испанский (Мексика) | Д | Н | Сабина | Женщина |
Испанский (Испания) | Д | Д | Елена | Женщина |
Дополнительные языки преобразования текста в речь можно приобрести у следующих сторонних поставщиков:
- org/ListItem»>
Программное обеспечение Харпо
ЦереПрок
Следующий
Примечание. Эти параметры предоставляются только в информационных целях. Microsoft не поддерживает какое-либо конкретное стороннее программное обеспечение и не может предлагать какую-либо поддержку по его установке и использованию. Для получения помощи по этим продуктам, пожалуйста, свяжитесь с их первоначальным производителем.
Языки преобразования текста в речь с открытым исходным кодом
бесплатных языка преобразования текста в речь доступны для загрузки у поставщика с открытым исходным кодом eSpeak. Эти языки работают в Windows 7, но некоторые из них могут еще не работать в Windows 8, Windows 8.1 или Windows 10. Просмотрите список доступных языков и кодов eSpeak для получения дополнительной информации.
Скачать языки eSpeak
Откройте в браузере страницу http://espeak.sourceforge.net/download.html.
Загрузите версию «Скомпилировано для Windows» под названием setup_espeak-1.48.04.exe .
Когда загрузка будет завершена, нажмите Далее на первом экране установки, чтобы начать установку.
Подтвердите путь установки и нажмите Далее .
Введите двухбуквенный код (коды) языка (языков) и флага (флагов), которые вы хотите установить. Например, если вы хотите добавить функцию преобразования текста в речь для английского, испанского, польского, шведского и чешского языков, ваш экран будет выглядеть так:
Чтобы использовать альтернативные голоса для языка, вы можете выбрать дополнительные команды для изменения различных атрибутов голоса и произношения. Для получения дополнительной информации см. http://espeak.sourceforge.net/voices.html. Предустановленные варианты голоса можно применить к любому из языковых голосов, добавив знак плюс ( + ) и имя варианта.
Варианты мужских голосов: +m1, +m2, +m3, +m4, +m5, +m6 и +m7. Варианты для женских голосов: +f1, +f2, +f3, +f4 и +f5. Вы также можете выбрать дополнительные голосовые эффекты, такие как +кваканье или +шепот.
Дважды щелкните Далее , а затем щелкните Установить .
Узнать больше
Языковые пакеты для Windows
Управление настройками языка отображения в Windows 10 и Windows 11.
bne IntelliNews — Битва русских голосовых помощников
Мы рабы клавиатуры, если мы хотим работать с растущим ассортиментом интеллектуальных устройств, но возможность просто поговорить с виртуальным помощником — это технологическая вольность, которая уже стала реальностью. Это также одна из областей, где Россия находится в авангарде гонки развития.
Мировой рынок виртуальных помощников переживает бум: Juniper Research ожидает, что «к 2023 году будет использоваться почти 8 миллиардов цифровых голосовых помощников», а Strategy Analytics прогнозирует, что к тому времени доля смартфонов с голосовыми помощниками вырастет до 90%. К марту 2019 года уровень внедрения смарт-колонок также резко вырос: по данным Voicebot.ai, 26,2% взрослого населения США владеют смарт-колонками.
И хотя в США и Европе доминируют Amazon, Google и Apple, есть страны, которые идут другим путем. Технически подкованные и прогрессивные, они максимально используют свои местные знания и внедряют инновации. Среди таких стран Китай, чья база установленных умных динамиков, как ожидается, вырастет до 59.0,9 млн в 2019 году, Япония, которая, по прогнозам, увеличит объем рынка умных динамиков в четыре раза до 38 млрд долларов США к 2025 году, и Россия, где ежемесячная аудитория собственного голосового помощника Алисы от Яндекса превысила 30 млн человек.
Июнь 2019 года был особенно богат на события для российского рынка голосовых помощников. В течение последних двух лет харизматичный голосовой помощник Алиса от российского технологического гиганта Яндекс задавал тон, оставляя позади местные версии Siri и Google Assistant. Но все изменится с запуском голосового помощника Олега Тинькофф Банка и объявлением Mail.ru Group, которая проводит бета-тестирование собственной Маруси. Итак, вместе с Кириллом Петровым из Just AI мы разберем любопытный случай российского рынка ИИ.
Алиса от Яндекса
В своей стране Яндекс похож на Google, Amazon и Uber, объединенных в одно целое. В 2017 году компания запустила голосового помощника Алису, органично вписавшегося в ее экосистему общенациональных сервисов, в которую входят поисковая система, служба доставки еды, каршеринг и многое другое.
Согласно данным, опубликованным Яндексом, сейчас Алисой пользуются около 35 млн человек в месяц.
Доступный на русском языке, Алиса может делать все, что можно ожидать от цифрового голосового помощника, например, искать информацию в Интернете, отвечать на простые вопросы, показывать основные новости и прогноз погоды, помогать в доступе к функциям вашего телефона и развлекательному контенту, а также действующий как чат-бот.
Эта функция болтовни в сочетании с характерным характером Алисы и необычным чувством юмора является ключом к растущей популярности голосового помощника. Вскоре после выхода Алиса стала вирусной в российских социальных сетях со скриншотами забавных диалогов и видео людей, разговаривающих с ней. Мемы об Алисе и люди, пытающиеся раскрыть ее скрытые навыки на Youtube, могут показаться не такими уж большими, но они поощряли людей использовать умных помощников и нарушали способ общения с ними.
Большая часть аудитории Алисы — это пользователи смартфонов, несмотря на то, что на большинстве устройств есть встроенные цифровые помощники. Как и его зарубежные собратья, российский виртуальный агент поставляется с Яндексом. Station, первая умная колонка на российском рынке — в 2018 году их было поставлено около 40 000 штук. Также Яндекс быстро запустил собственную экосистему Алисы для стороннего доступа — открытую платформу Яндекс.Диалоги. Этот шаг побудил такие компании, как Papa Johns, McDonald’s, Nicorette и Skoda, среди прочих, использовать разговорный ИИ в своей маркетинговой деятельности и развивать свой набор навыков для Алисы.
Таким образом, всего за два года Яндекс не только установил планку для других цифровых помощников, но и проложил путь для других: и компании, и люди одинаково стремятся использовать разговорный ИИ.
Олег от Тинькофф Банка
Представленный крупнейшим в России интернет-банком и «поставщиком лайфстайл услуг», цифровой помощник Олег был выпущен только в июне. Конечно, во многом новый виртуальный агент должен будет догнать более взрослую Алису, но он уже не чурается болтовни и вообще живет концепцией «друг, который всегда рядом».
Созданный для задач, связанных с финансами и стилем жизни, призванный помочь пользователям ориентироваться в экосистеме Тинькофф, Олег распознает и интерпретирует команды, задает уточняющие вопросы, устраняет определенные проблемы и говорит на самые разные темы.
Но самое главное, Олег на 100% доморощенный — да, банковское учреждение с нуля построило голосового помощника на базе ИИ. С 2014 года Тинькофф разрабатывает модели глубоких нейронных сетей и голосовые технологии в рамках своей стратегии AI First. Компания также может похвастаться своей технологией распознавания речи с точностью 9.5%, который работает даже в шумозагрязненной среде. Кроме того, у Тинькофф есть собственная биометрическая система, работающая в 99,99% случаев, и собственная технология синтеза голоса, основанная на нейронных моделях WaveNet, Tacotron и Deep Voice.
На момент запуска Олег умел переводить деньги на счета Тинькофф Банка и Сбербанка, бронировать столики в ресторанах, записываться на салоны красоты, искать скидки, покупать билеты в кино, предлагать денежные советы и лайфхаки, управлять кредитными картами, менять персональные информация и многое другое. В дальнейшем Тинькофф планирует дальнейшую интеграцию Олега в свою экосистему, которая охватывает туристические, мобильные, инвестиционные, страховые и развлекательные сервисы.
Для использования помощника сейчас необходимо запустить приложение Тинькофф, что может в определенной степени помешать его внедрению. Тем не менее, компания решает эту проблему, делая большую часть функций Олега доступной в режиме громкой связи.
Таким образом, несмотря на то, что Олег является относительно молодым цифровым помощником, у него уже есть конкурентное преимущество, и другим придется приложить немало усилий, чтобы превзойти его. Имея возможность идентифицировать голос пользователя с помощью биометрических данных и предлагая услуги, в которых безопасность является ключевым фактором, он может обеспечить бесперебойную работу для клиентов без опасностей многоэтапной авторизации.
Маруся от Mail.ru Group
В июне ведущая российская технологическая компания и главный конкурент Яндекса, технологический холдинг Mail.ru Group, владеющий двумя самыми популярными в России социальными сетями Одноклассники и ВКонтакте, объявил о начале бета-тестирования. своя собственная голосовая помощница Маруся.
Принять участие в тестировании можно, оставив заявку на сайте проекта или получив приглашение от других участников. Бета-версия этого приложения доступна в AppStore и Google Play.
На данный момент Маруся отвечает на вопросы о прогнозе погоды, расписании киносеансов и билетах на поезд, включает музыку и радио и выполняет различные другие задания. Mail.ru Group пока не объявила дату запуска, но говорит, что в будущем помощник сможет рассказывать о новостях, заказывать еду и вызывать такси.
Если «Маруся» на данном этапе является «темной лошадкой» российского рынка голосовых помощников, то для Mail.ru она действительно может стать отличной бизнес-возможностью для роста бизнеса. В отличие от «Яндекса» и «Тинькофф», Mail.ru Group имеет базу пользователей как «Одноклассников», так и «ВКонтакте» — двух самых популярных социальных сетей в России, более популярных, чем Instagram и Facebook. Большая часть их аудитории — молодая и прогрессивная, поэтому компания может органично сгонять ее на Марусю.
Что из этого получится?
Когда появились новые цифровые помощники, российский интернет взорвался видеороликами, на которых трое разговаривают друг с другом, иногда не особенно дружелюбно. Россияне явно в восторге от Олега и Маруси. Тем не менее, двум новичкам придется потрудиться, чтобы перехватить лидерство у Алисы, которая, по сути, является универсальным магазином для всего, что связано с Яндексом.
Более взрослая Алиса существует на множестве устройств, включая Яндекс.Станцию, компьютеры, смартфоны, наушники и детские часы, так что другим придется заняться этим. И если Тинькофф с его самодостаточной экосистемой может обойтись и без него, то Mail.ru Group нужно подумать о выпуске умных колонок вслед за Марусей.
В своем прогнозе Deloitte отмечает, что к концу 2019 года количество умных колонок с голосовым управлением превысит 250 млн устройств. А анализируя динамику отрасли, прогнозируется, что уже в 2023 году во всем мире будет продано миллиард устройств.
Кроме того, Яндекс, скорее всего, присматривается к еще одному растущему тренду: умные дисплеи, где что-то вроде Яндекс.Станции можно подключить к телевизору через порт HDMI. Будет ли Mail. ru Group также участвовать в этом, учитывая количество развлекательного контента, к которому у нее потенциально есть доступ? Нам придется подождать и посмотреть.
Что касается игр и развлечений, Mail.ru Group сидит на золотой жиле — все это можно трансформировать в диалоговые интерфейсы, привлекая огромный рекламный трафик, особенно после внедрения платежной механики.
Платежный функционал в голосовых навыках позволяет монетизировать голосового помощника и развивать экосистему вокруг него, повышая его привлекательность для сторонних разработчиков. Например, Google Assistant и Amazon Alexa внедрили модель, аналогичную App Store и Google Play, — с долей распределения доходов от покупок в рамках навыка (покупка в рамках навыка) в соотношении 70% к 30%, где 70 % дохода идет разработчику.
Пока Маруся привязана только к собственным сервисам Mail.ru, но компания уже пообещала открыть экосистему навыков для сторонних разработчиков.
Хотя проблема «обнаружения навыков» по-прежнему актуальна для большинства цифровых помощников, включая «Алису» от Яндекса, с прямым доступом к миллионам пользователей социальных сетей, которые легко сегментируются, Mail. ru Group может решить ее.
Что касается Олега, то его пользовательская база уже состоит из клиентов банка, личности которых официально проверены. Технология распознавания голоса помогает обработать около миллиона звонков, а биометрическая система, обученная на голосовых данных клиентов, помогает колл-центру бороться с мошенничеством. Это дает Тинькофф беспрецедентное конкурентное преимущество за счет поддержки операций с конфиденциальной информацией, с одной стороны, и эффективной автоматизации поддержки клиентов, с другой.
К тому же российский рынок не сводится к этой тройке: в Россию пришли Google Assistant и Siri. Ходят слухи, что местные корпорации, в том числе один из трех ведущих операторов связи, работают над собственными виртуальными помощниками, а китайские производители стремятся выйти на рынок.
По мере того, как рынок становится все более насыщенным, конкуренция становится все более жесткой, и игрокам придется проявить изобретательность, чтобы выжить.