Голосовой ассистент для пк: ТОП 12 Голосовых помощников — Рейтинг лучших в 2023 | Дропшиппинг

Содержание

Голосовые помощники в Windows — рекомендации по проектированию — Azure AI services

Статья
07/20/2023

Голосовые помощники, разработанные для Windows 10, должны реализовывать приведенные ниже рекомендации по взаимодействию с пользователем, чтобы обеспечить наилучшие возможности для голосовой активации в Windows 10. Этот документ поможет разработчикам понять основные действия, необходимые для интеграции голосового помощника с оболочкой Windows 10.

Содержимое

Сводка представлений голосовой активации, поддерживаемых в Windows 10
Сводка требований
Лучшие практики для хорошего прослушивания
Руководство по проектированию для голосовой активации в приложении
Руководство по проектированию для голосовой активации над замком

Руководство по дизайну для предварительного просмотра голосовой активации

Сводка представлений голосовой активации, поддерживаемых в Windows 10

Windows 10 определяет способ активации для контекста клиента на основе контекста устройства. Следующая сводная таблица представляет собой общий обзор различных представлений, доступных при включенном экране.

Просмотр (доступность)	Контекст устройства	Цель клиента	Отображается, когда	Потребности в дизайне
В приложении (19h2)	Под блокировкой, помощник имеет фокус	Взаимодействовать с приложением-помощником	Ассистент обрабатывает запрос в приложении	Основное впечатление от прослушивания в приложении
Над блокировкой (19h3)	Над блокировкой, без аутентификации	Взаимодействуйте с помощником, но на расстоянии	Система заблокирована, и помощник запрашивает активацию	Полноэкранные визуальные эффекты для пользовательского интерфейса в дальней зоне. Реализуйте политику закрытия, чтобы не блокировать разблокировку.
Предварительный просмотр голосовой активации (20h2)	Ниже замка помощник не сфокусирован	Взаимодействуйте с помощником, но менее навязчивым образом	Система ниже блокировки, и помощник запрашивает активацию фона	Минимальный холст. При необходимости измените размер или перейдите к основному виду приложения.

Сводка требований

Требуется минимальное усилие, чтобы получить доступ к различным возможностям. Однако помощникам необходимо реализовать правильные рекомендации по дизайну для каждого вида. В приведенной ниже таблице представлен контрольный список требований, которые необходимо соблюдать.

Просмотр голосовой активации	Сводка требований к помощнику
В приложении	Обработать запрос в приложении Предоставляет индикаторы пользовательского интерфейса для состояний прослушивания Пользовательский интерфейс адаптируется при изменении размеров окон
Над блокировкой	Обнаружить состояние блокировки и запросить активацию Не обеспечивать постоянный пользовательский интерфейс, который блокирует доступ к экрану блокировки Windows Обеспечение полноэкранных визуальных эффектов и голосового управления Учитывать рекомендации по закрытию Следуйте приведенным ниже соображениям конфиденциальности и безопасности
Предварительный просмотр голосовой активации	Обнаружение состояния разблокировки и запрос фоновой активации Нарисуйте минимальный пользовательский интерфейс для прослушивания на панели предварительного просмотра Нарисуйте закрывающий значок X в правом верхнем углу и отключите и остановите потоковую передачу звука при нажатии Измените размер или перейдите к основному представлению приложения-помощника по мере необходимости, чтобы дать ответы

Лучшие практики для хорошего прослушивания

Помощники должны научиться слушать, чтобы предоставлять критическую обратную связь, чтобы клиент мог понять состояние помощника. Ниже приведены некоторые возможные состояния, которые следует учитывать при создании помощника. Это только возможные предложения, а не обязательные инструкции.

Ассистент доступен для речевого ввода
Ассистент находится в процессе активации (нажатие ключевого слова или кнопки микрофона)

Ассистент активно передает аудио в облако помощника
Ассистент готов к разговору с клиентом
Ассистент слышит, что говорят слова
Ассистент понимает, что клиент закончил говорить
Ассистент обрабатывает и готовит ответ
Ассистент отвечает

Даже если состояния меняются быстро, стоит подумать о предоставлении UX для состояний, поскольку длительность варьируется в экосистеме Windows. Визуальная обратная связь, а также короткие звуковые сигналы или щебетание, также называемые «наушниками», могут быть частью решения. Точно так же визуальные карточки в сочетании со звуковыми описаниями создают хорошие варианты ответа.

Когда приложение-помощник сфокусировано, клиент явно намерен взаимодействовать с приложением, поэтому все операции голосовой активации должны обрабатываться в основном представлении приложения.

Размер этого представления может быть изменен заказчиком. Чтобы помочь объяснить взаимодействие с оболочкой помощника, в остальной части этого документа используется конкретный пример помощника по финансовым услугам с именем Contoso. На этой и последующих диаграммах то, что говорит покупатель, будет отображаться в виде всплывающих окон с речью слева, а ответы помощника — в виде всплывающих окон справа.

Просмотр в приложении. Исходное состояние при запуске голосовой активации:

Просмотр в приложении. После успешной голосовой активации начинается прослушивание:

Просмотр в приложении. Все ответы остаются в приложении.

Доступные с 19h3 помощники, построенные на платформе голосовой активации Windows, доступны для ответа на вышеуказанный замок.

Согласие клиента

Голосовая активация над блокировкой всегда отключена по умолчанию. Клиенты соглашаются через настройки Windows>Конфиденциальность>Голосовая активация. Подробнее о мониторинге и запросах для этого параметра см. в руководстве по реализации над блокировкой.

Не замена экрана блокировки

В то время как уведомления или другие стандартные точки интеграции экрана блокировки приложений остаются доступными для помощника, экран блокировки Windows всегда определяет начальное взаимодействие с пользователем до тех пор, пока не произойдет голосовая активация. После обнаружения голосовой активации приложение-помощник временно появляется над экраном блокировки. Чтобы избежать путаницы с клиентами, при активации над блокировкой приложение-помощник никогда не должно предоставлять пользовательский интерфейс для запроса каких-либо учетных данных или входа в систему.

Выше блокировки после голосовой активации

Когда экран включен, приложение-помощник работает в полноэкранном режиме без строки заголовка над экраном блокировки. Более крупные визуальные эффекты и четкие голосовые описания с сильным голосовым интерфейсом позволяют в тех случаях, когда клиент находится слишком далеко, чтобы читать пользовательский интерфейс, или его руки заняты другой задачей (не связанной с ПК).

Когда экран остается выключенным, приложение-помощник может воспроизводить звуковой сигнал, чтобы указать, что помощник активирован, и обеспечить работу только с голосом.

Политики закрытия

Помощник должен реализовать руководство по увольнению в этом разделе, чтобы клиентам было проще войти в систему, когда они в следующий раз захотят использовать свой ПК с Windows. Ниже приведены конкретные требования, которые должен выполнить помощник.

На всех холстах помощника, которые показаны выше замком, должен быть X в правом верхнем углу, который закрывает помощника.
Нажатие любой клавиши также должно закрыть приложение-помощник. Ввод с клавиатуры — это традиционный сигнал приложения блокировки о том, что клиент хочет войти в систему. Следовательно, любой ввод с клавиатуры/текста не следует направлять в приложение. Вместо этого приложение должно автоматически закрываться при обнаружении ввода с клавиатуры, чтобы клиент мог легко войти в систему на своем устройстве.
Если экран погас, приложение должно закрыться. Это гарантирует, что в следующий раз, когда клиент будет использовать свой компьютер, экран входа в систему будет готов и будет ждать его.

Если приложение «используется», оно может продолжаться выше блокировки. Под «использованием» понимается любой ввод или вывод. Например, при потоковой передаче музыки или видео приложение может продолжать работу выше блокировки. «Дальнейшие» и другие шаги многооборотного диалога разрешены, чтобы приложение оставалось заблокированным.
Подробные сведения о реализации закрытия приложения можно найти в приведенном выше руководстве по реализации блокировки.

Вопросы конфиденциальности & безопасности выше блокировки

Многие ПК портативны, но не всегда доступны покупателям. Их можно ненадолго оставить в гостиничных номерах, на креслах самолетов или на рабочих местах, куда другие люди имеют физический доступ. Если помощники, включенные выше блокировки, не подготовлены, они могут стать объектом так называемых атак «злой горничной».

Таким образом, помощники должны следовать указаниям в этом разделе, чтобы обеспечить безопасность работы. Взаимодействие выше блокировки происходит, когда пользователь Windows не аутентифицирован. Это означает, что в общем случае входные данные для помощника также должны рассматриваться как непроверенные.

Помощники должны реализовать список разрешенных навыков для определения навыков, которые подтверждены безопасными и безопасными для доступа выше блокировки.
Технологии Speaker ID могут сыграть роль в снижении некоторых рисков, но Speaker ID не является подходящей заменой для проверки подлинности Windows.
Список разрешенных навыков должен включать три класса действий или навыков:

Класс действия	Описание	Примеры (неполный список)
Безопасность без проверки подлинности	Информация общего назначения или базовое приложение для управления и контроля	«Который сейчас час?», «Воспроизвести следующий трек»
Безопасность с идентификатором динамика	Риск выдачи себя за другое лицо, раскрытие личной информации.	«Какая у меня следующая встреча?», «Просмотрите мой список покупок», «Ответить на звонок»
Безопасность только после проверки подлинности Windows	Действия с высоким риском, которые злоумышленник может использовать, чтобы нанести вред клиенту	«Купить больше продуктов», «Удалить мою (важную) встречу», «Отправить (злое) текстовое сообщение», «Запустить (злостную) веб-страницу»

В случае Contoso общая информация об общедоступных акциях безопасна без аутентификации. Информация о клиенте, такая как количество принадлежащих ему акций, скорее всего, будет в безопасности со Speaker ID. Однако ни в коем случае нельзя разрешать покупку или продажу акций без проверки подлинности Windows.

Для более надежной защиты веб-ссылки или другие запуски между приложениями всегда блокируются Windows до тех пор, пока клиент не войдет в систему. В качестве последнего средства устранения проблемы корпорация Майкрософт оставляет за собой право удалить приложение из списка разрешенных помощников, если серьезная ошибка безопасности своевременно не будет устранена.

Ниже блокировки, когда приложение-помощник не сфокусировано, Windows предоставляет менее навязчивый пользовательский интерфейс голосовой активации, чтобы помочь пользователю оставаться в курсе. Это особенно верно в случае ложных активаций, которые могут сильно помешать запуску полного приложения. Основная идея состоит в том, что у каждого помощника есть еще один дом в Shell — значок на панели задач помощника. При запросе фоновой активации появляется небольшой вид над значком панели задач помощника. Помощники должны дать небольшой опыт прослушивания этого холста. После обработки запросов помощники могут изменить размер этого представления, чтобы отображать ответ в контексте, или передать свое основное представление приложения для отображения более крупных и подробных визуальных элементов.

Для целей минимизации предварительный просмотр не имеет строки заголовка, поэтому помощник должен нарисовать X в правом верхнем углу, чтобы клиенты могли закрыть представление. См. сведения о закрытии приложения для вызова API, которые должны вызываться при нажатии кнопки «Закрыть».
Для поддержки предварительного просмотра голосовой активации помощники могут предложить клиентам закрепить помощника на панели задач во время первого запуска.

Предварительный просмотр голосовой активации: исходное состояние

У помощника Contoso есть дом на панели задач: их кружащийся круглый значок.

По мере активации помощник запрашивает фоновую активацию. Помощнику предоставляется небольшая панель предварительного просмотра (ширина по умолчанию 408 и высота: 248). Если голосовая активация на стороне сервера определяет, что сигнал был ложным срабатыванием, это представление может быть отклонено из-за минимального прерывания.

Когда окончательная активация подтверждена, помощник представляет свой слушающий UX. Ассистент всегда должен рисовать X в правом верхнем углу окна предварительного просмотра голосовой активации.

Быстрые ответы могут отображаться в предварительном просмотре голосовой активации. TryResizeView позволит помощникам запрашивать разные размеры.

Передача. В любой момент помощник может перейти к своему основному представлению приложения, чтобы предоставить дополнительную информацию, диалог или ответы, которые требуют больше места на экране. Пожалуйста, обратитесь к разделу Переход от компактного представления к полному представлению для получения подробной информации о реализации.

Дальнейшие действия

Начните разработку своего голосового помощника

Ирина — опенсорс русский голосовой помощник. Offline-ready / Хабр

— Ирина, таймер…
— Ставлю таймер на пять минут.

Вполне себе обыденная история из моего быта. Я таки сделал собственного автономного голосового помощника.

TL;DR> Ирина вполне неплохо работает дома 24×7.
Потребуется установить Python 3. 5+ и зависимости через pip (немного знаний Python).
Скиллы «из коробки»: таймер, погода, контроль медиа (громче/тише/дальше), контроль плеера MPC-HC, запуск медиа из папки, расписание ближайших электричек, «подбрось кубик/монетку».
Плагинами добавляются: другие скиллы, Text-to-Speech и Speech-to-Text движки.

Мотивация

За каждым проектом стоят причины, побудившие автора им заняться. Давайте сначала немного о них.

Во-первых, я не в восторге, что общедоступные голосовые помощники контролируются корпорациями. Я не могу точно сказать, что X порекомендует моему ребенку на запрос «мультики» и что покажет ему на Ютубе. Я бы предпочел контролировать это самостоятельно, пусть на это уйдёт и несколько больше времени.

Во-вторых, оффлайн. Почти везде голос распознаётся на серверах, и это а) потенциально небезопасно, б) есть кейсы (например, дача), где стабильный онлайн не очень-то доступен.

В-третьих, четкая работа помощника по командам. Мне хотелось бы точно знать, что происходит, когда я произношу то или иное слово. Идея «поболтать с Алисой» мне несколько чужда — в частности, потому, что я не могу до конца доверять мотивациям людей, её создающим. Если брать ребенка, то мне бы хотелось, чтобы он учился командовать компьютером, а не болтать с ним; в конце концов, именно однозначно понимаемый набор команд можно назвать алгоритмом.

В-четвертых, короткие команды. Наверное, их можно настроить и в других помощниках, но тут это сделать гораздо проще — можно их просто запрограммировать.

В-пятых, сложные сценарии. Если весь код у вас на руках, то сделать при необходимости сценарий в духе «реши десять арифметических задачек, а потом можешь посмотреть мультик» гораздо проще.

Если вы в первом приближении разделяете часть моих мотиваций — возможно, Ирина вам подойдет.

Архитектурные компромиссы

Нельзя объять необъятное

При создании этого проекта я заложил в него некоторые компромиссы. Они усложнят работу в одном случае, и упростят в другом. Давайте с ними ознакомимся, прежде чем переходить к технической части.

Основная цель проекта — дать программисту возможность быстро дополнять навыки голосового помощника и настраивать их под себя.
Установка помощника сделана больше для программиста на Python, нежели для конечного пользователя. Потребуется скачать проект с Github, установить зависимости через pip, и запустить Python-файл. Зато дописывать проще. (Я не против, если кто-то упакует это в EXE, но я сам не чувствую в этом необходимости)
Установка плагинов. Плагины надо кинуть в папку plugins, а после их запуска можно настроить их JSON-конфиг (для тех, у кого предусмотрены настройки) в папке options. Возможно, имело смысл сделать какой-нибудь онлайн-репозиторий, и механизм установки, но я делал быстро и максимально просто.
Мультиязычность. Мультиязычность бы потребовала умение обрабатывать разные языки (определенная сложность парсинга команд), а также каждый раз работать с локализованными строками. Я посчитал, что её поддержание обойдется слишком дорого программисту, пишущему «для себя». Поэтому многоязычность плагинов не поддерживается — всё только на русском, но просто. (Ядро поддерживает многоязычность, т.к. там не так много языкозависимых строк. При желании вы можете просто переписать нужные вам плагины на нужный вам язык. Также можно подключить другие Text-to-Speech и Speech-to-Text движки, и работать на другом языке)
Не Python-style кода (личное). С Python я начал работать не так давно, и до сих пор много работаю на других языках. Поэтому при написании кода я часто использую типовое ООП, хотя возможно, что-то можно было сделать компактнее.

Если указанные компромиссы вас не отпугнули — думаю, имеет смысл познакомиться с Ириной.

Быстрый старт

Скачайте проект с Github
Для быстрой установки всех требуемых зависимостей можно воспользоваться командой: pip install -r requirements. txt
Для запуска запустите файл runva_vosk.py из корневой папки. По умолчанию он запустит оффлайн-распознаватель vosk для распознавания речи с микрофона, и pyttsx движок для озвучивания ассистента (стандартный движок Windows для синтеза речи).
После запуска проверить можно простой командой — скажите «Ирина, привет!» в микрофон

Общая логика

Запуск всех команд начинается с имени ассистента (настраивается в options/core.json, по умолчанию — Ирина). Так сделано, чтобы исключить неверные срабатывания при постоянном прослушивании микрофона. Далее будут описываться команды без префикса «Ирина».

Плагины

Поддержка плагинов сделана на собственном движке Jaa.py — минималистичный однофайловый движок поддержки плагинов и их настроек.

Плагины располагаются в папке plugins и должны начинаться с префикса «plugins_». Плагины задают навыки/скиллы голосового помощника.

Настройки плагинов, если таковые есть, располагаются в папке «options» (создается после первого запуска).

Готовые плагины

С Ириной поставляются плагины, которые закрывают большую часть обыденных кейсов использования голосового помощника (если вы, конечно, не собираетесь с ним общаться). Для каждого плагина написано, требуется ли онлайн. Для отключения удалите его из папки.

plugin_greetings.py — приветствие (оффлайн). Пример команды: «ирина, привет»

plugin_timer.py — таймер (оффлайн). Примеры: «таймер, таймер шесть минут, таймер десять секунд, таймер десять» (без указания единиц ставит на минуты — «таймер десять» — на десять минут. Просто «таймер» ставит на пять минут)

plugin_mediacmds.py — команды управления медиа (оффлайн). Пример: «дальше, громче, тише, сильно громче, сильно тише, пауза». (Если установлено mpcIsUseHttpRemote, то сначала делается попытка вызвать команду плеера MPC-HC, если не удается — используется эмуляция мультимедийных клавиш)

plugin_mpchcmult.py — проигрывание мультиков через MPC-HC из определенной папки (оффлайн). Пример «мультик <название_мультика>». Папка задается в конфиге. При вызове команды в папке ищется файл с соответствующим названием <название_мультика> и любым расширением. Если найден — запускается на проигрывание. (Как можно догадаться, этот плагин предназначен для показа отобранных медиа без обращения к ютубу.)

plugin_random.py — рандом (оффлайн). Примеры: «подбрось|брось кубик|монетку». Содержит примеры парсинга дерева команд (команды можно задавать деревом). Больше демонстрационный плагин.

plugin_weatherowm.py — погода (онлайн). Примеры: «погода, погода завтра, погода послезавтра, прогноз погоды». Требует установки в конфиге бесплатного API-ключа отсюда, а также местоположения пользователя.

plugin_yandex_rasp.py — расписание ближайших электричек через Яндекс.Расписания. Пример: «электричка, электрички». Требует установки в конфиге бесплатного API-ключа для личных нужд (до 500 запросов в сутки) отсюда, а также станций отправления и назначения. (Если вы ездите на электричке — фраза «ирина, электричка» очень удобна для проверки расписания)

plugin_tts_pyttsx.py — (оффлайн) позволяет делать TTS (Text-To-Speech, озвучку текста) через pyttsx движок. Используется по умолчанию.

plugin_tts_console.py — (оффлайн) заглушка для отладки. Вместо работы TTS просто выводит текст в консоль.

Свои Text-to-Speech и Speech-to-Text движки

По умолчанию для распознания речи используется движок VOSK, для синтеза — Windows (голос Irene).

Дописать свои варианты вполне можно, это стандартная операция. Детали — в Github.

Уже доступен STT через модуль SpeechReсognition (онлайн-распознавание от Гугла и пр.), а также TTS через Silero (нейросетевая генерация оффлайн). Мне не очень понравился результат Silero (хотя сам проект прекрасен) — генерируется дольше, задержка в несколько секунд, а также есть «металлические» шумы, но, возможно, он подойдет вам. (Кстати, в одном из комментариев @putnik поделился собственным анализом доступных движков TTS и STT. )

Кстати, имя помощника тоже настраивается в файле конфигурации — так что если нужно, можете сделать, чтобы он откликался на имя «Джарвис». И можно поставить мужской голос, конечно.

Аналоги

Честно говоря, я начал писать свой проект без анализа аналогов. Ну, точнее, беглый гуглеж позволил мне найти прекрасную хабрастатью @EnjiRouz Пишем голосового ассистента на Python, а также соответствующий репозиторий, который и послужил основой для проекта.

Правда, например, код для получения погоды c OpenWeatherMap пришлось полностью переписать, потому что они перестали поддерживать старое API.

Лишь позднее, в декабре на хабре появилась статья Программируем умный дом, а к ней довольно интересный коммент putnik, который попробовал самые разные системы. Процитирую:

Ну и более конкретно прокомментирую часть про голосовых ассистентов, так как я этим сейчас активно занимаюсь:

Один из самых больших проектов на github с открытым кодом голосового помощника называется Leon. Система сделана французом…

…и поэтому поддерживает только два языка: английский и французский. К тому же проект имеет довольно небольшое сообщество и в основном разрабатывается автором. Как следствие, набор модулей, которые обеспечивают интеграцию, довольно скуден.

После, у нас есть JARVIS из Железного Человека. <…> Это позволит вам создавать вашу собственную Сири в пределах отдельно взятой сети.

Интересно, получилось ли у автора создать собственную Сири, или всё же самостоятельная настройка споттера, распознавания голоса и озвучки текста на отдельно взятой малинке всё же сильно выходят за рамки «небольшой конфигурации». Ну, и если ничего не поменялось, то у него была проблема с поддержкой даже не русского, а вообще какой-либо локализации. Так что, вероятно, вам придётся делать форк и переводить все сообщения.

Чуть более популярная чем Jarvis, но уступающая Леону — система Mycroft.

Про эту знаю несколько больше, так как выбрал её и сейчас занимаюсь локализацией. И хорошо, если хотя бы к новому году смогу получить сколько-нибудь работающее решение.

Ядро небольшое, почти всё вынесено в плагины и навыки. Есть какое-никакое сообщество, которое эти навыки пишет и поддерживает. Хотя встречается довольно много ~~говна и палок~~ не самых лучших архитектурных решений. Ядро в интернет ломится за настройками навыков, которые хранятся на сервере, сами навыки за данными. По умному дому более-менее нормальная интеграция есть только с Home Assistant, остальное вам придётся писать с нуля. По музыке есть интеграция со Spotify (если вас не смущает необходимость хранить пароль в открытом виде на чужих серверах).

Лично я немного потыкал Jarvis, который мне показался похожим по архитектуре на мою собственную. Сделан достаточно удобно; но это, вообще говоря, проект, рассчитанный под консольные команды(!) на английском(!). Т.е. адекватная локализация на русский — дело крайне большое; не говоря уже о том, что ряд кейсов плохо укладывается в голосовое, а не консольное управление (например, игра «Быки и коровы»).

В общем, на мой взгляд, проект «Ирина» для русского пользователя — совсем неплохо. С другими проектами придется серьезно решать проблемы локализации. Хотя, конечно, интеграций в аналогах больше — но при желании их можно попытаться портировать под Ирину.

Заключение

Честно говоря, я сам не ожидал, но Ирина вполне себе прижилась у нас в семье.

Самый часто используемый навык — таймер, потому что рядом кухня. Иногда используется погода и электрички. Мультики пока ещё не востребованы, думаю заняться ими позже.

Крутится это все на ноутбуке, который в настоящее время является сервером. Встроенного микрофона хватает на эффективное распознавание с 2-3 метров; хотя, конечно, иногда не срабатывает и приходится либо повторять, либо подходить вплотную.

Загрузка процессора минимальна; думаю, пойдет и на Малинке, но, конечно, не пробовал.

Свои плагины

Честно говоря, у меня уже есть несколько собственных плагинов чисто «под себя».

Например, по «ирина, запусти музыку» открывается Яндекс. Музыка.

Еще у нас есть локальный, не сетевой доставщик неплохой пиццы (PushPizza, если кому интересно). Где-то за полчаса я написал плагин, который проверяет, в каком состоянии доставка — готовится, или едет. Написан алгоритм с использованием библиотеки pyautogui, позволяющей эмулировать ввод пользователя (мышь и клавиатуру):

Открыть страницу доставки
Подождать чуть-чуть
Найти на экране картинку (форму ввода телефона) (да, в pyautogui такое есть из коробки)
Перевести туда мышь и кликнуть
Сэмулировать ввод телефона
Вуаля! Страница со статусом доставки доступна

В общем, вроде писать плагины оказалось несложно. (Если вы вдруг что-то напишете и захотите поделиться, можете кидать ссылки сюда.

Благодарности

@EnjiRouz за проект голосового ассистента, который стал основой (правда, был очень сильно переработан), а также за отличную статью на Хабре: Пишем голосового ассистента на Python

AlphaCephei за прекрасную библиотеку распознавания Vosk.

@putnik за разбор других голосовых помощников и список TTS и STT решений

Github проекта

UPD: Некоторые добавления с момента публикации статьи

Добавлен TTS плагин для RHVoice
Вышла версия 3.x — с возможностью многомашинных инсталляций. На центральном сервере запускается REST/JSON сервер с Ириной (FastAPI). Сервер делает всю работу плюс даже TTS. От клиентов требуется отправлять только распознавать данные с микрофона и отсылать команды серверу. Так что Ирину можно запускать на нескольких машинах в разных комнатах.
- Для клиента в базовом варианте (vosk) сделал готовый EXE-файл (auto-py-to-exe), который не привязан к установке Питона. Его вроде можно запускать вообще где угодно.
- Учитывая, что у Ирины теперь есть REST API, при желании можно запилить какие-нибудь интеграции (например, написать клиент для Телеграм и удаленно вызывать команды)
В комментах к статье есть обсуждение с проблемами установки под Linux; возможно, кому-то пригодится

4 лучших альтернативы Cortana в Windows 10

Кортана уже много лет знакома пользователям Windows, предлагая быстрый и легкий доступ к информации на вашем компьютере. Однако с недавними обновлениями роль Кортаны была сведена к более узкому кругу задач, что позволило пользователям искать другие варианты для своих личных помощников.

К счастью, для пользователей Windows доступно несколько других вариантов, каждый со своими уникальными функциями и преимуществами. В этой статье мы рассмотрим альтернативы Cortana, предлагающие широкий спектр функций, от простых голосовых команд до мощных инструментов автоматизации.

1. Google Assistant

Google Assistant — это универсальный виртуальный помощник, который доступен на самых разных устройствах, включая смартфоны и планшеты Android, умные колонки Google Home и умные дисплеи.

Он может выполнять широкий спектр задач, включая отправку сообщений, телефонные звонки, установку напоминаний и воспроизведение музыки. Google Assistant использует обработку естественного языка и машинное обучение, чтобы понимать голосовые команды и реагировать соответствующим образом.

Одной из выдающихся особенностей Google Assistant является его глубокая интеграция с экосистемой продуктов и услуг Google. Это означает, что пользователи могут использовать Google Assistant для управления своими устройствами Google и доступа к информации из таких приложений, как Google Maps, Google Calendar и Google Photos.

По сравнению с виртуальным помощником Microsoft, Cortana, Google Assistant имеет более широкий спектр возможностей, включая интеграцию с набором инструментов и сервисов Google для повышения производительности. Кроме того, Google Assistant имеет более разговорный подход к голосовым командам, что обеспечивает более естественный и интуитивно понятный опыт.

Одним из ограничений Google Assistant является то, что он может быть доступен не на всех устройствах или во всех регионах, что может ограничивать его доступность для некоторых пользователей. Кроме того, Google Assistant может с трудом понимать определенные акценты или диалекты, что может вызвать разочарование у некоторых пользователей.

На данный момент Google Assistant недоступен для прямой установки в Windows 10. Однако пользователи могут получить доступ к Google Assistant через приложение Google на своем устройстве с Windows 10 или через веб-браузер.

Ссылка: Google Assistant для Android | iOS | Окна | macOS (бесплатно)

2. Mycroft AI

Mycroft — это помощник искусственного интеллекта (ИИ) с открытым исходным кодом, который можно установить на различные устройства, такие как смартфоны и компьютеры Windows. Майкрофт разработан с упором на конфиденциальность. Таким образом, он не собирает и не хранит личные данные, что делает его привлекательной альтернативой проприетарным помощникам искусственного интеллекта, таким как Cortana.

Одной из уникальных особенностей Майкрофта является его гибкость. Его природа с открытым исходным кодом позволяет разработчикам настраивать его в соответствии со своими конкретными потребностями. Пользователи также могут выбирать, какие функции включать или отключать, в зависимости от своих предпочтений.

Возможности Майкрофта по обработке естественного языка позволяют ему понимать голосовые команды и отвечать на них. Следовательно, он может выполнять множество задач, таких как установка напоминаний, воспроизведение музыки, обновление информации о погоде и поиск в Интернете.

В отличие от Cortana, которая в первую очередь предназначена для устройств Windows, Mycroft можно установить на различные устройства и операционные системы, такие как Windows, iOS, macOS и Android.

Однако у Майкрофта меньше пользователей, чем у Кортаны. Следовательно, у него может быть не так много функций или интеграций с другим программным обеспечением и услугами.

В целом, Mycroft — многообещающий ИИ-помощник с открытым исходным кодом, который предлагает альтернативу проприетарным ИИ-помощникам, таким как Cortana. Его гибкость и ориентированный на конфиденциальность подход делают его привлекательным вариантом для пользователей, которые ценят персонализацию и конфиденциальность данных.

Скачать: Майкрофт для Android | Окна | макОС | Linux (бесплатно)

3. Braina

Braina — это инновационный виртуальный помощник, обеспечивающий пользователям эффективный и персонализированный опыт. Это жизнеспособная альтернатива Cortana в Windows 10, имеющая множество функций, которые делают ее лучшим выбором для некоторых пользователей.

Одной из выдающихся особенностей Braina является точность распознавания голоса, которая является одной из лучших на рынке. Он позволяет пользователям взаимодействовать со своим компьютером, используя естественный язык, а помощник способен понимать сложные команды, что делает его идеальным для профессионалов.

Список команд Braina обширен, что позволяет пользователям с легкостью открывать приложения, выполнять поиск в Интернете, устанавливать напоминания и управлять функциями своего компьютера. Помощник также может помочь с математическими задачами, прочитать текст с веб-страниц и перевести текст между различными языками.

В отличие от Cortana, Braina не ограничивается Windows 10 и может использоваться на других платформах, таких как Android и iOS. Эта функция делает Braina отличным выбором для пользователей, использующих несколько устройств и нуждающихся в плавном переходе между ними.

Возможности настройки Braina — еще один фактор, отличающий его от Cortana. Пользователи могут настроить язык, акцент и личность помощника, создавая уникальный опыт. Этот уровень настройки позволяет пользователям адаптировать помощника к своим индивидуальным потребностям и предпочтениям.

Несмотря на многочисленные преимущества, Braina имеет некоторые ограничения. Одним из наиболее существенных ограничений является отсутствие интеграции с продуктами Microsoft Office, что может стать препятствием для некоторых пользователей.

Кроме того, бесплатная версия программного обеспечения несколько ограничена, и пользователям необходимо будет заплатить за полную версию, чтобы получить доступ к некоторым более продвинутым функциям.

Скачать: Braina для Android | iOS | Windows (бесплатно, доступна подписка)

4. Alexa

Alexa — виртуальный помощник, разработанный Amazon. Он может выполнять множество задач, в том числе воспроизводить музыку, отвечать на вопросы, устанавливать будильники, управлять устройствами умного дома и даже заказывать товары на Amazon. Мы более подробно рассмотрели, как работает Alexa, если вам интересно.

Одной из выдающихся особенностей Alexa является ее способность интегрироваться с широким спектром устройств умного дома. Сюда входят Amazon Echo, Dot, Show и Fire TV.

Это означает, что пользователи могут управлять всем, от освещения и термостатов до дверных замков и систем безопасности, используя только свой голос. Кроме того, у Alexa есть растущая библиотека из более чем 100 000 навыков, разработанных сторонними разработчиками, которые можно использовать для выполнения таких задач, как заказ пиццы или игра в игру.

По сравнению с Cortana Alexa имеет более обширный набор функций и большую библиотеку сторонних навыков. Однако у Cortana есть преимущество с точки зрения интеграции с набором продуктов Microsoft, таких как Office и Windows.

Загрузить: Alexa для Android | iOS | Окна | macOS (бесплатно)

Какой виртуальный помощник Windows лучше для вас?

Независимо от того, предпочитаете ли вы более настраиваемый рабочий стол с помощью Mycroft, универсального и хорошо интегрированного виртуального помощника, такого как Google Assistant, или виртуального помощника, который может управлять вашими умными домашними устройствами, для вас найдется инструмент.

В конечном счете, лучшая альтернатива Cortana будет зависеть от ваших конкретных потребностей и предпочтений. С этой целью стоит изучить каждый из этих вариантов, чтобы увидеть, какой из них лучше всего подходит для вас.

Загрузить Virtual Assistant — лучшее программное обеспечение и приложения

Celtx — это бесплатный комплексный инструмент для написания сценариев и подготовки к производству. Программное обеспечение позволяет членам съемочных групп, СМИ и телекоманд…
Amazon Alexa — это бесплатный многофункциональный виртуальный помощник, совместимый с Windows. С помощью этой программы с голосовым управлением вы можете управлять рядом умных домов…
IELTS Speaking Assistant — это бесплатное образовательное приложение для мобильных устройств от разработчика Virtual Education. Это приложение-компаньон для изучения…
Облачный личный помощник Microsoft, Cortana, можно использовать на вашем компьютере, мобильном телефоне или другом устройстве. Он понимает ваш голос и выполняет…
Siri — это бесплатное приложение от IQT Ltd для выполнения задач без помощи рук. Виртуальный помощник будет выполнять задачи с помощью голоса.
Существует множество программ для ускорения того, что вы делаете. Тогда есть программное обеспечение, которое делает вещи, о которых вы даже не подозревали! Селткс…
Это приложение, которое позволяет вам управлять всеми службами, интегрированными в ваш собственный виртуальный помощник. Он очень прост в использовании, просто используйте свой голос и…
Существуют разные способы запуска Google Assistant на вашем телефоне Android. Приложение Google Assistant — один из таких способов. Излишне говорить, что приложение позволяет вам…
Braina — это программное обеспечение для распознавания речи, разработанное Brainasoft, которое может разумно отвечать на ваши вопросы. Он также может выступать в качестве вашего виртуального помощника…
Это приложение позволит вам управлять профилем вашего виртуального помощника (Av). Это инструмент, который позволяет вам создавать свои собственные профили, настраивать. ..
Chat GPT Sidebar — это бесплатное расширение, которое предоставляет боковую панель, совместимую с любым браузером. Просто загрузите приложение на свое устройство, чтобы получить мгновенный доступ…
Indigo Virtual Assistant — это бесплатное приложение для Android, относящееся к категории «Производительность» и разработанное компанией Artificial Solutions.
Перенесите Siri на свое устройство Android, а затем сделайте ее еще лучше с помощью настраиваемых функций. Это приложение предоставляет вам новые, улучшенные и настраиваемые виртуальные… может напомнить вам о событиях, помочь вам найти информацию и вызвать улыбку. Bestee — это умный…
Everfriends — 3D Virtual Assistant — это бесплатное приложение, доступное только для Android и входящее в категорию «Инструменты и утилиты». был опубликован i-Free…
Kunomail — это бесплатный почтовый клиент, который предлагает гораздо больше творчества при создании сообщений для клиентов.