Голосовые помощники в Windows — рекомендации по проектированию — Azure Cognitive Services
- Статья
- Чтение занимает 8 мин
Голосовые помощники, разработанные для Windows 10, должны реализовывать приведенные ниже рекомендации по взаимодействию с пользователем, чтобы обеспечить наилучшие возможности для голосовой активации в Windows 10. Этот документ поможет разработчикам понять основные действия, необходимые для интеграции голосового помощника с оболочкой Windows 10.
Содержимое
- Сводка представлений голосовой активации, поддерживаемых в Windows 10
- Сводка требований
- Лучшие практики для хорошего прослушивания
- Руководство по проектированию для голосовой активации в приложении
- Руководство по проектированию для голосовой активации над замком
- Руководство по дизайну для предварительного просмотра голосовой активации
Сводка представлений голосовой активации, поддерживаемых в Windows 10
Windows 10 определяет способ активации для контекста клиента на основе контекста устройства. Следующая сводная таблица представляет собой общий обзор различных представлений, доступных при включенном экране.
Просмотр (доступность) | Контекст устройства | Цель клиента | Отображается, когда | Потребности в дизайне |
---|---|---|---|---|
В приложении (19h2) | Под блокировкой, помощник имеет фокус | Взаимодействовать с приложением-помощником | Ассистент обрабатывает запрос в приложении | Основное впечатление от прослушивания в приложении |
Над блокировкой (19h3) | Над блокировкой, без аутентификации | Взаимодействуйте с помощником, но на расстоянии | Система заблокирована, и помощник запрашивает активацию | Полноэкранные визуальные эффекты для пользовательского интерфейса в дальней зоне. Реализуйте политику закрытия, чтобы не блокировать разблокировку. |
Предварительный просмотр голосовой активации (20h2) | Ниже замка помощник не сфокусирован | Взаимодействуйте с помощником, но менее навязчивым образом | Система ниже блокировки, и помощник запрашивает активацию фона | Минимальный холст.![]() |
Сводка требований
Требуется минимальное усилие, чтобы получить доступ к различным возможностям. Однако помощникам необходимо реализовать правильные рекомендации по дизайну для каждого вида. В приведенной ниже таблице представлен контрольный список требований, которые необходимо соблюдать.
Просмотр голосовой активации | Сводка требований к помощнику |
---|---|
В приложении |
|
Над блокировкой |
|
Предварительный просмотр голосовой активации |
|
Лучшие практики для хорошего прослушивания
Помощники должны научиться слушать, чтобы предоставлять критическую обратную связь, чтобы клиент мог понять состояние помощника. Ниже приведены некоторые возможные состояния, которые следует учитывать при создании помощника. Это только возможные предложения, а не обязательные инструкции.
- Ассистент доступен для речевого ввода
- Ассистент находится в процессе активации (нажатие ключевого слова или кнопки микрофона)
- Ассистент активно передает аудио в облако помощника
- Ассистент готов к разговору с клиентом
- Ассистент слышит, что говорят слова
- Ассистент понимает, что клиент закончил говорить
- Ассистент обрабатывает и готовит ответ
- Ассистент отвечает
Даже если состояния меняются быстро, стоит подумать о предоставлении UX для состояний, поскольку длительность варьируется в экосистеме Windows. Визуальная обратная связь, а также короткие звуковые сигналы или щебетание, также называемые «наушниками», могут быть частью решения. Точно так же визуальные карточки в сочетании со звуковыми описаниями создают хорошие варианты ответа.
Когда приложение-помощник сфокусировано, клиент явно намерен взаимодействовать с приложением, поэтому все операции голосовой активации должны обрабатываться в основном представлении приложения.
Просмотр в приложении. Исходное состояние при запуске голосовой активации:
Просмотр в приложении. После успешной голосовой активации начинается прослушивание:
Просмотр в приложении. Все ответы остаются в приложении.
Доступные с 19h3 помощники, построенные на платформе голосовой активации Windows, доступны для ответа на вышеуказанный замок.
Согласие клиента
Голосовая активация над блокировкой всегда отключена по умолчанию. Клиенты соглашаются через настройки Windows>Конфиденциальность>Голосовая активация. Подробнее о мониторинге и запросах для этого параметра см. в руководстве по реализации над блокировкой.
Не замена экрана блокировки
В то время как уведомления или другие стандартные точки интеграции экрана блокировки приложений остаются доступными для помощника, экран блокировки Windows всегда определяет начальное взаимодействие с пользователем до тех пор, пока не произойдет голосовая активация. После обнаружения голосовой активации приложение-помощник временно появляется над экраном блокировки. Чтобы избежать путаницы с клиентами, при активации над блокировкой приложение-помощник никогда не должно предоставлять пользовательский интерфейс для запроса каких-либо учетных данных или входа в систему.
Выше блокировки после голосовой активации
Когда экран включен, приложение-помощник работает в полноэкранном режиме без строки заголовка над экраном блокировки. Более крупные визуальные эффекты и четкие голосовые описания с сильным голосовым интерфейсом позволяют в тех случаях, когда клиент находится слишком далеко, чтобы читать пользовательский интерфейс, или его руки заняты другой задачей (не связанной с ПК).
Когда экран остается выключенным, приложение-помощник может воспроизводить звуковой сигнал, чтобы указать, что помощник активирован, и обеспечить работу только с голосом.
Политики закрытия
Помощник должен реализовать руководство по увольнению в этом разделе, чтобы клиентам было проще войти в систему, когда они в следующий раз захотят использовать свой ПК с Windows. Ниже приведены конкретные требования, которые должен выполнить помощник.
- На всех холстах помощника, которые показаны выше замком, должен быть X в правом верхнем углу, который закрывает помощника.
- Нажатие любой клавиши также должно закрыть приложение-помощник. Ввод с клавиатуры — это традиционный сигнал приложения блокировки о том, что клиент хочет войти в систему. Следовательно, любой ввод с клавиатуры/текста не следует направлять в приложение. Вместо этого приложение должно автоматически закрываться при обнаружении ввода с клавиатуры, чтобы клиент мог легко войти в систему на своем устройстве.
- Если экран погас, приложение должно закрыться. Это гарантирует, что в следующий раз, когда клиент будет использовать свой компьютер, экран входа в систему будет готов и будет ждать его.
- Если приложение «используется», оно может продолжаться выше блокировки. Под «использованием» понимается любой ввод или вывод. Например, при потоковой передаче музыки или видео приложение может продолжать работу выше блокировки. «Дальнейшие» и другие шаги многооборотного диалога разрешены, чтобы приложение оставалось заблокированным.
- Подробные сведения о реализации закрытия приложения можно найти в приведенном выше руководстве по реализации блокировки.
Вопросы конфиденциальности & безопасности выше блокировки
Многие ПК портативны, но не всегда доступны покупателям. Их можно ненадолго оставить в гостиничных номерах, на креслах самолетов или на рабочих местах, куда другие люди имеют физический доступ. Если помощники, включенные выше блокировки, не подготовлены, они могут стать объектом так называемых атак «злой горничной».
Таким образом, помощники должны следовать указаниям в этом разделе, чтобы обеспечить безопасность работы. Взаимодействие выше блокировки происходит, когда пользователь Windows не аутентифицирован. Это означает, что в общем случае входные данные для помощника также должны рассматриваться как непроверенные.
- Помощники должны реализовать список разрешенных навыков для определения навыков, которые подтверждены безопасными и безопасными для доступа выше блокировки.
- Технологии Speaker ID могут сыграть роль в снижении некоторых рисков, но Speaker ID не является подходящей заменой для проверки подлинности Windows.
- Список разрешенных навыков должен включать три класса действий или навыков:
Класс действия | Описание | Примеры (неполный список) |
---|---|---|
Безопасность без проверки подлинности | Информация общего назначения или базовое приложение для управления и контроля | «Который сейчас час?», «Воспроизвести следующий трек» |
Безопасность с идентификатором динамика | Риск выдачи себя за другое лицо, раскрытие личной информации.![]() | «Какая у меня следующая встреча?», «Просмотрите мой список покупок», «Ответить на звонок» |
Безопасность только после проверки подлинности Windows | Действия с высоким риском, которые злоумышленник может использовать, чтобы нанести вред клиенту | «Купить больше продуктов», «Удалить мою (важную) встречу», «Отправить (злое) текстовое сообщение», «Запустить (злостную) веб-страницу» |
В случае Contoso общая информация об общедоступных акциях безопасна без аутентификации. Информация о клиенте, такая как количество принадлежащих ему акций, скорее всего, будет в безопасности со Speaker ID. Однако ни в коем случае нельзя разрешать покупку или продажу акций без проверки подлинности Windows.
Для более надежной защиты веб-ссылки или другие запуски между приложениями всегда блокируются Windows до тех пор, пока клиент не войдет в систему. В качестве последнего средства устранения проблемы корпорация Майкрософт оставляет за собой право удалить приложение из списка разрешенных помощников, если серьезная ошибка безопасности своевременно не будет устранена.
Ниже блокировки, когда приложение-помощник не сфокусировано, Windows предоставляет менее навязчивый пользовательский интерфейс голосовой активации, чтобы помочь пользователю оставаться в курсе. Это особенно верно в случае ложных активаций, которые могут сильно помешать запуску полного приложения. Основная идея состоит в том, что у каждого помощника есть еще один дом в Shell — значок на панели задач помощника. При запросе фоновой активации появляется небольшой вид над значком панели задач помощника. Помощники должны дать небольшой опыт прослушивания этого холста. После обработки запросов помощники могут изменить размер этого представления, чтобы отображать ответ в контексте, или передать свое основное представление приложения для отображения более крупных и подробных визуальных элементов.
- Для целей минимизации предварительный просмотр не имеет строки заголовка, поэтому помощник должен нарисовать X в правом верхнем углу, чтобы клиенты могли закрыть представление.
См. сведения о закрытии приложения для вызова API, которые должны вызываться при нажатии кнопки «Закрыть».
- Для поддержки предварительного просмотра голосовой активации помощники могут предложить клиентам закрепить помощника на панели задач во время первого запуска.
Предварительный просмотр голосовой активации: исходное состояние
У помощника Contoso есть дом на панели задач: их кружащийся круглый значок.
По мере активации помощник запрашивает фоновую активацию. Помощнику предоставляется небольшая панель предварительного просмотра (ширина по умолчанию 408 и высота: 248). Если голосовая активация на стороне сервера определяет, что сигнал был ложным срабатыванием, это представление может быть отклонено из-за минимального прерывания.
Когда окончательная активация подтверждена, помощник представляет свой слушающий UX. Ассистент всегда должен рисовать X в правом верхнем углу окна предварительного просмотра голосовой активации.
Быстрые ответы могут отображаться в предварительном просмотре голосовой активации. TryResizeView позволит помощникам запрашивать разные размеры.
Передача. В любой момент помощник может перейти к своему основному представлению приложения, чтобы предоставить дополнительную информацию, диалог или ответы, которые требуют больше места на экране. Пожалуйста, обратитесь к разделу Переход от компактного представления к полному представлению для получения подробной информации о реализации.
Дальнейшие действия
Начните разработку своего голосового помощника
Голосовое управление компьютером Windows 10 на русском: топ-7 программ
Управление голосом – одна из важнейших функций умных устройств. Она позволяет людям с ограниченными возможностями здоровья полноценно пользоваться гаджетами, да и для обычных пользователей голосовой ассистент становится помощником в решении повседневных задач. В этой связи важно разобраться, как настроить голосовое управление компьютером на базе Windows 10 на русском. И, в первую очередь, нужно заняться выбором ПО.
СОДЕРЖАНИЕ СТАТЬИ:
ПО для голосовых команд
Голосовое управление выполняется при помощи программного обеспечения. В этом отношении у пользователя есть широкий выбор приложений, которые будут способны осуществить задуманное. Ниже рассмотрим лучшие программы.
Typle
Одно из самых щадящих, с точки зрения потребления ресурсов ПК, приложение, поддерживающее массу полезных функций. Так, с помощью голоса владелец компьютера может запускать софт, открывать документы и взаимодействовать с программами, работающими в онлайне. Typle поддерживает русский язык, а для первичной настройки требуется:
- Запустить приложение.
- Нажать на кнопку «Добавить пользователя».
- Задать входные данные.
- Нажать кнопку «Добавить команды» и зарегистрировать необходимые действия.
К минусам Typle стоит отнести тот факт, что программа не имеет предустановленных команд и рассматривается исключительно в качестве средства выполнения действий голосом, но никак не в качестве полноценного ассистента.
Speaker
Еще одна простая программа, в возможностях которой легко сориентируется даже новичок. Приложение работает по схожему с Typle принципу. После первого запуска владельцу компьютера нужно зарегистрировать пользователя, а также команды для выполнения тех или иных действий, будь то запуск программ или открытие конкретной странице в браузере. По аналогии с Typle, приложение Speaker нельзя назвать полноценным голосовым помощником.
Laitis
В отличие от двух предыдущих, эта программа распространяется как на платной, так и на бесплатной основе. Во втором случае пользователю доступен ограниченный функционал, а в работе приложения неминуемо будут встречаться баги. В то же время Laitis справляется с поставленными задачами, предлагая зарегистрировать неограниченное число команд. Но, опять же, Laitis – не голосовой ассистент, а софт для обработки пользовательских команд, произнесенных голосом. Поэтому не стоит рассчитывать на то, что с вами будет общаться виртуальный помощник.
«Горыныч»
Разработка российских программистов, отличающаяся возможностью работать и онлайн, и офлайн. При регистрации пользователь заносит всю необходимую информацию, после чего «Горыныч» начинает распознавать голосовые команды. Из минусов важно отметить непродуманный интерфейс и общий проигрыш в оформлении, если сравнивать «Горыныча» с конкурентами.
Speechka
Это тоже отечественная разработка, но Speechka во многом базируется на технологии Google Voice Search. Функции нельзя назвать сверхинновационными: запуск приложений, открытие документов и поиск информации в сети (разумеется, через Google). Как и в случае с ранее рассмотренными программами, пользователю придется самостоятельно регистрировать команды, но зато с их распознаванием не должно возникнуть серьезных проблем.
«Алиса»
Куда более серьезный и проработанный софт, представляющий собой полноценного голосового ассистента. В «Алисе» уже запрограммированы основные команды, благодаря чему владельцу компьютера не придется долго копаться в настройках. Одновременно с этим предлагаются следующие интересные фишки:
- живой диалог с ассистенткой;
- быстрые ответы на вопросы;
- интеграция с онлайн-сервисами, включая Госуслуги;
- моментальный поиск информации в сети.
«Алиса» идеально распознает русскую речь и крайне редко допускает ошибки. Однако данное приложение не является оптимальным средством управления компьютером. Она не интегрирована в Windows 10 по умолчанию, в связи с чем пользователю приходится регистрировать команды или, как они здесь называются, «Навыки». Только после этого «Алиса» сможет осуществлять манипуляции с данными в оффлайне.
Cortana для Windows 10
Последним на очереди идет стандартный голосовой ассистент для компьютеров на базе Windows 10. Cortana рассматривается нами в последнюю очередь только из-за того, что она не поддерживает русский язык (во всяком случае пока). Поэтому пользоваться «Кортаной» могут лишь те, кто обладает разговорными навыками других языков.
На заметку. Cortana поддерживает английский, немецкий, французский, китайский, итальянский, испанский и японский языки.
Но у «Кортаны» есть несколько преимуществ, заставляющих рассматривать ее в качестве основного средства голосового управления. Во-первых, это стандартный инструмент, не требующий скачивания дополнительного софта и оплаты подписки. Во-вторых, Cortana – полноценный ассистент. Наконец, «Кортана» интегрирована в систему, что позволяет рассчитывать на управление любыми процессами компьютера.
Как использовать распознавание речи в Windows 10
Процесс взаимодействия голосом с компьютером напрямую зависит от того, какой софт выбрал пользователь для управления. Если это простая утилита вроде «Горыныча» или Typle, то владельцу придется регистрировать команды. Только затем его запросы, произнесенные на русском языке, будут обрабатываться, а софт начнет осуществлять те или иные манипуляции.
«Алиса» – совершенно другой пример. Здесь пользователь получает в свое распоряжение виртуальную ассистентку, готовую вести диалог без предварительного ввода команд. Достаточно задать интересующий вопрос – и помощница сразу же даст на него ответ.
И, конечно же, отдельно стоит рассматривать Cortana. Это оптимальный вариант ассистента и средства для настройки голосового управления, если вы пользуетесь компьютером на базе Windows 10. Но и здесь есть свои недостатки, которые затрагивают русскоязычных пользователей.
Также, вне зависимости от выбранного софта, необходимо дать разрешение на работу микрофона и осуществление операций в фоне. В противном случае программа, будь то Typle или «Алиса», не будет распознавать человеческую речь.
Вам помогло? Поделитесь с друзьями — помогите и нам!
Твитнуть
Поделиться
Поделиться
Отправить
Класснуть
Линкануть
Вотсапнуть
Запинить
Читайте нас в Яндекс Дзен
Наш Youtube-канал
Канал Telegram
Adblock
detector
Создайте свой собственный голосовой помощник с искусственным интеллектом для управления компьютером | by Bharath K
Простое руководство о том, как создать собственного ИИ-помощника для управления различными действиями на ПК
Фото Алекса Найта на Unsplash В последнее время использование виртуальных помощников для управления окружением становится обычной практикой. Мы используем Google AI, Siri, Alexa, Cortana и многие другие подобные виртуальные помощники, чтобы выполнять задачи для нас с помощью простой голосовой или звуковой команды. Вы можете попросить их воспроизвести музыку, открыть определенный файл или любую другую подобную задачу, и они с легкостью выполнят такие действия.
Несмотря на то, что эти устройства крутые, интересно разработать собственного голосового автоматизированного помощника с искусственным интеллектом, который можно использовать для управления рабочим столом только с помощью голоса. Мы можем использовать такой ИИ, чтобы общаться с вами, открывать видео, воспроизводить музыку и многое другое.
В этой статье мы будем работать над вводным проектом для помощника ИИ, который вы можете использовать для управления своим ПК или любым другим подобным устройством с помощью голоса. Мы начнем с введения в некоторые из основных зависимостей, необходимых для создания этого проекта, и приступим к объединению всего этого в файл Python, с помощью которого создается голосовой помощник AI для выполнения ваших команд.
Прежде чем углубиться в эту статью, если вас интересуют другие такие классные проекты, где мы создаем что-то с нуля, я бы порекомендовал ознакомиться с одной из моих предыдущих работ. Ниже приведена ссылка, по которой вы можете разработать собственный индикатор приложения погоды с помощью Python, написав менее десяти строк кода.
Разработка приложения для прогноза погоды с помощью Python менее чем за 10 строк
Создание нашего приложения для прогноза погоды с помощью Python для получения обновлений в нужном месте
в направлении datascience.com
Часть 1: Управление рабочим столом
Фото BENCE BOROS на Unsplash В этом разделе статьи мы научимся управлять нашим ПК. Мы узнаем, как управлять и обрабатывать некоторые основные операции на физическом экране. С помощью PyAutoGUI мы можем выполнять множество функций, необходимых для этого проекта. Этот инструмент библиотеки автоматизации позволяет пользователям программно управлять мышью и клавиатурой.
Вы можете установить требования для обработки всех задач, связанных с курсором, мышью и клавиатурой, с библиотекой PyAutoGUI с помощью простой команды pip, как показано ниже.
pip install PyAutoGUI
Давайте начнем с некоторых основных команд из этой библиотеки, которые нам потребуются для разработки нашего проекта Python для голосового ИИ. Через пару минут установка должна быть завершена в соответствующей среде без особых хлопот.
Во-первых, давайте импортируем библиотеку PyAutoGUI, как показано в приведенном ниже фрагменте кода. Следующий важный шаг — узнать разрешение вашего рабочего экрана. Мы можем распечатать размер экрана по умолчанию и высоту экрана с помощью функции размера, доступной в недавно установленной библиотеке.
import pyautogui# Печать ширины и высоты экрана по умолчанию 1080, который должен быть размером экрана по умолчанию для большинства компьютеров. Однако, если у вас более высокое или низкое разрешение на экране монитора, вы все равно можете легко следовать руководству.Команды можно использовать взаимозаменяемо для получения желаемых координат в любом разрешении. Просто не забудьте соответствующим образом изменить некоторые параметры, если разрешение вашего экрана не соответствует моему.
Другая важная команда, которую мы рассмотрим в этом разделе, — это команда для определения текущего местоположения и положения указателя мыши. Функция position() библиотеки определяет текущие координаты, в которых находится указатель мыши. Мы можем использовать эти позиции для поиска папок и других важных каталогов на экране вашего рабочего стола. Ниже приведен фрагмент кода для выполнения следующего действия.
# Отображение текущей позиции курсора
currentMouseX, currentMouseY = pyautogui.position() # Получить позицию XY мыши.
print(currentMouseX, currentMouseY)Еще одна интересная функция библиотеки заключается в том, что вы можете определить положение определенных изображений на текущем рабочем экране вместе с соответствующими координатами с помощью приведенного ниже фрагмента кода.
# Определение местоположения на экране путем получения координат
x, y = pyautogui.locateCenterOnScreen("image.png")Последняя важная команда, которую мы рассмотрим в этом разделе, — это функция, которая позволяет нам открывать нужный каталог. Поместив курсор в верхний левый угол, я смог определить координаты моей папки администратора. Мы можем переместить курсор в соответствующее место, используя функцию moveTo() вместе с соответствующей позицией папки. Затем мы можем использовать команду click(), указав количество щелчков левой или правой кнопкой мыши и количество щелчков, которые вы хотите сделать.
# Откройте каталог администратора
pyautogui.moveTo(37, 35, 1)
pyautogui.click(button='left', clicks=2)С помощью приведенного выше фрагмента кода вы сможете открыть папку администратора поскольку курсор автоматически перемещается в каталог администратора и дважды щелкает по нему, чтобы открыть его. Если у вас нет аналогичного значка в левом верхнем углу экрана или у вас другое разрешение экрана, не стесняйтесь экспериментировать с позициями и координатами соответственно.
Часть 2: Голосовое управление
Фото Томаса Ле на UnsplashВ этом разделе статьи мы поймем некоторые основные требования к распознаванию речи, которое является вторым по значимости компонентом этого проекта. Нам потребуется микрофон, чтобы передавать наши команды голосом и соответствующим образом интерпретировать информацию. Рекомендуется использовать библиотеку распознавания речи вместе с преобразователем текста в речь по вашему выбору. Также убедитесь, что в вашей рабочей среде установлен PyAudio.
Если зрители не очень хорошо знакомы с преобразованием текста в речь, я настоятельно рекомендую ознакомиться с одной из моих предыдущих статей, где я рассказываю о преобразовании текста в речь Google с помощью Python с кодами для начинающих, чтобы вы могли начать. Ссылка на то же самое приведена ниже.
Как начать работу с преобразованием текста в речь Google с использованием Python
Краткое введение в преобразование текста в речь с нуля
ниже блока кода.
Библиотека распознавания речи позволит нам обнаружить необходимые голосовые команды. Кроме того, мы можем использовать библиотеку преобразования текста в речь, чтобы передавать текстовые команды, преобразовывать их в голос и передавать их системе для выполнения желаемой операции. Мы можем создать переменную для распознавателя голоса.
import speech_recognition as sr
import pyttsx3r = sr.Recognizer()На следующем шаге мы прочитаем вход пользователя с микрофона в качестве источника и соответствующим образом интерпретируем речь. Как только звук распознается как желаемый, речевой вывод отображается на выходе терминала. Однако, если речь не обнаружена, мы можем передать необходимые исключения, чтобы пользователь мог соответствующим образом проверить свои настройки. Ниже приведен фрагмент кода для простого распознавания речи.
с sr.Microphone() в качестве источника:
r.adjust_for_ambient_noise(source)
print ("Скажи что-нибудь")
audio = r.listen(source)
try:
text = r.recognize_google(audio)
print( "Вы сказали: ", текст)кроме sr.UnknownValueError:
print("Распознавание речи Google не может понять звук")кроме sr.RequestError as e:
print("Не удалось запросить результаты от службы распознавания речи Google ; {0}".format(e))На следующем шаге мы создадим окончательную сборку для голосового помощника ИИ, где мы сможем объединить две функции, обсуждаемые в этом разделе, в одну сущность для выполнения требуемых действий. действия.
Photo by Possessed Photography на UnsplashТеперь, когда у нас есть общее представление о двух основных компонентах этой статьи — управлении устройством и распознавании речи, мы можем начать комбинировать оба этих элемента для разработки нашего проекта. Давайте начнем с импорта необходимых библиотек, как показано ниже.
import pyautogui
import speech_recognition as srr = sr.Recognizer()В следующем фрагменте мы определим функцию команды, где мы будем интерпретировать многочисленные действия.
В приведенном ниже блоке кода я определил только пару функций, т. Е. Чтобы открыть мой каталог администратора или меню «Пуск». Функция принимает текстовый ввод, предоставленный пользователем. Мы можем добавить несколько других необходимых команд для дальнейших улучшений этого проекта.
def commands(text):
if text == "open admin":
# Открыть каталог администратора
pyautogui.moveTo(37, 35, 1)
pyautogui.click(button='left', clicks=2) elif text == "open start menu":
# Открыть стартовое меню
pyautogui.moveTo(18, 1057, 1)
pyautogui.click(button='left', clicks=1)В следующем блоке кода мы определим функциональность для получения аудиовхода от пользователя и соответствующего распознавания речи. Как только звук будет услышан, обязательно преобразуйте его в нижний регистр перед передачей ввода текста в нашу функцию команд. Как только приведенный ниже код будет построен, вы можете протестировать и запустить проект.
с sr.Microphone() в качестве источника:
r.adjust_for_ambient_noise(source)
print ("Скажи что-нибудь")
audio = r.listen(source)try:
text = r.recognize_google(audio)
print( "вы сказали: ", текст)
команд(text.lower())кроме sr.UnknownValueError:
print("Распознавание речи Google не может понять звук")кроме sr.RequestError as e:
print(" Не удалось запросить результаты у службы распознавания речи Google; {0}".format(e))Предпочтительный метод запуска вашего проекта — свернуть все вкладки и открыть терминал для запуска кода Python. Вы можете дать команду «открыть администратора», чтобы посмотреть, как курсор перемещается из местоположения по умолчанию в указанное положение, и открыть его по желанию. Все необходимые файлы для следующего проекта находятся в моем репозитории GitHub. Проверьте это по следующей ссылке.
Следующий проект — это только вводный проект, который поможет вам начать работу с собственным голосовым помощником ИИ с нуля. Мы можем внести множество усовершенствований и улучшений в следующий проект, который я бы порекомендовал пользователям опробовать.
Фото Вики Строуберрика на UnsplashЯ также рассмотрю расширение части 2 этой статьи, где мы можем сделать несколько значительных улучшений для улучшения функций и производительности.
«Все, что может привести к развитию интеллекта умнее человека — в форме искусственного интеллекта, интерфейсов мозг-компьютер или улучшения человеческого интеллекта на основе нейронауки — побеждает безоговорочно как максимально изменить мир. Ничто другое не находится даже в той же лиге».
— Элиэзер ЮдковскиРаспознавание речи и голоса — примитивные задачи, понятные человеку. Мы способны воспринимать и отвечать на большинство человеческих эмоций, слушая и считывая различные типы голосов и фигур речи. Однако машины еще не обладают полной способностью понимать эмоции, стоящие за речью.
Хотя нам не удалось полностью разработать машины, полностью понимающие человеческие чувства, нам удалось разработать несколько устройств, способных обнаруживать и понимать речь.
Запрограммированный в настоящее время ИИ может распознавать речь и создавать сетевое сопоставление для интерпретации диалога и выполнения соответствующей задачи.
В этой статье мы разработали проект системы голосовой автоматизации, которую можно использовать для управления многочисленными действиями на рабочем столе. Мы рассмотрели основы библиотеки PyAutoGUI для обработки всех задач, связанных с курсором, мышью и клавиатурой. Затем мы изучили библиотеку распознавания речи для обнаружения и обработки голоса. Наконец, мы создали голосового помощника с искусственным интеллектом для управления вашим компьютером.
Если вы хотите получать уведомления о моих статьях, как только они появляются, перейдите по следующей ссылке, чтобы подписаться на рекомендации по электронной почте. Если вы хотите поддержать других авторов и меня, подпишитесь на ссылку ниже.
Присоединяйтесь к Medium по моей реферальной ссылке - Bharath K
Как участник Medium, часть вашего членского взноса идет авторам, которых вы читаете, и вы получаете полный доступ ко всем историям…
bharath-k1297.
medium.com
Если у вас есть какие-либо вопросы, связанные с различными пунктами, изложенными в этой статье, дайте мне знать в комментариях ниже. Я постараюсь вернуться к вам с ответом как можно скорее.
Быстрое обновление для всех зрителей, которым нравится читать мой контент. Я прошу прощения за задержки, вызванные для блогов, так как я был немного занят работой. Я постараюсь публиковать не менее трех-пяти статей каждый месяц, начиная со следующей. Спасибо всем за вашу постоянную поддержку.
Ознакомьтесь с некоторыми другими моими статьями по теме, затронутой в этой части, которые вам также может быть интересно прочитать!
Лучшие визуализации Seaborn для науки о данных
Изучение некоторых из лучших вариантов визуализации для проектов по науке о данных с помощью библиотеки Seaborn
в направлении datascience.com
7 советов по программированию на Python для повышения вашей производительности
Повышение эффективности программирования на Python путем исправления некоторых распространенных неверных методов программирования с Python
Разработка графического интерфейса календаря для управления вашими планами на 2022 год и далее
в направленииdatascience.
com
Спасибо всем, что дочитали до конца. Надеюсь, всем вам понравилось читать статью. Желаю всем прекрасного дня!
Загрузить Virtual Assistant — лучшее программное обеспечение и приложения
Реклама
Бесплатное программное обеспечение для написания сценариев
Celtx — это бесплатный комплексный инструмент для написания сценариев и подготовки к производству. Программное обеспечение позволяет членам кино-, медиа- и телекоманд...
Разговор с виртуальным помощником
Siri — это бесплатное приложение от IQT Ltd для выполнения задач без помощи рук. Виртуальный помощник будет выполнять задачи с помощью голоса.
Мощный и популярный бесплатный виртуальный помощник для ПК с Windows
Amazon Alexa — это бесплатный многофункциональный виртуальный помощник, совместимый с Windows.
С помощью этой программы с голосовым управлением вы можете управлять рядом умных домов...
Как использовать Microsoft Cortana для бизнеса и повышения производительности
Облачный личный помощник Microsoft, Cortana, можно использовать на вашем компьютере, мобильном телефоне телефон или другое устройство. Он понимает ваш голос и выполняет...
Как виртуальный помощник по планированию видео
Существует множество программ для ускорения того, что вы делаете. Тогда есть программное обеспечение, которое делает вещи, о которых вы даже не подозревали! Celtx...
IELTS Speaking Study Topics 2022
В современном мире важно подготовиться к деловой встрече или общественному собранию. Но для этого вам нужно говорить как носитель языка...
Управление виртуальным помощником (аватаром)
Это приложение позволит вам управлять профилем вашего виртуального помощника (Av).
Это инструмент, который позволяет вам создавать свои собственные профили, настраивать...
Лучший виртуальный помощник с искусственным интеллектом
Существуют разные способы запуска Google Assistant на вашем телефоне Android. Приложение Google Assistant — один из таких способов. Излишне говорить, что приложение позволяет вам...
Иметь собственного виртуального помощника
Braina — это программное обеспечение для распознавания речи, разработанное Brainasoft, которое может разумно отвечать на ваши вопросы. Он также может выступать в качестве вашего виртуального помощника...
Приложение Google Assistant для Android
Это приложение позволяет вам управлять всеми службами, интегрированными в ваш собственный виртуальный помощник. Он очень прост в использовании, просто используйте свой голос...
Полезное и веселое приложение 3D виртуального помощника с индивидуальностью и чувством юмора!
Everfriends - 3D Virtual Assistant — это бесплатное приложение, доступное только для Android, входящее в категорию «Инструменты и утилиты» и опубликованное i-Free.
..
Бесплатное приложение для Android от Needom Studio.
Диктофон — это приложение, которое можно использовать для записи чего угодно. Вы можете записывать с телефона что угодно, например музыку, голос или даже звуки. Он имеет простую...
Бесплатное приложение для повышения производительности для Android
Indigo Virtual Assistant — это бесплатное приложение для Android, относящееся к категории «Производительность» и разработанное компанией Artificial Solutions.
Бесплатная программа для Android от HeadBreyz T.M.
Это очень простое приложение-помощник, которое позволяет вам задавать вопросы и получать ответы. Он может ответить на множество разных вопросов, но для этого...
Бесплатный почтовый клиент
Kunomail — это бесплатный почтовый клиент, предлагающий намного больше творчества при создании сообщений для клиентов.