Голосовое управление ноутбуком. Управление голосом и жестами на компьютере

Для людей с ограниченными возможностями, а также просто для сибаритов, разработчики ОС создали голосовое управление компьютером. Оно позволяет пользователю вводить информацию при помощи голоса. После проговаривания определенных слов устройство начинает распознавание речи - преобразование звукового сигнала в цифровую информацию. После того, как введенная информация будет корректно распознана – программа переходит к заданному алгоритму действия – выполняет функцию, которая прикреплена к той или иной команде.

Все достаточно просто. Не всегда речь распознается корректно, поэтому для решения сложных задач по управлению операционной системой программа голосового управления компьютером интенсивно не используется. Она применяется для выполнения основных функций: открытия и закрытия файлов, локального и сетевого поиска и пр.

История развития голосового управления

  • Первая система распознавания голоса Audrey была создана в 50-х годах ХХ века. Она расшифровывала лишь цифры, проговоренные одним голосом.
  • В 1962 г была создана первая система распознавания слов. Она расшифровывала 15 англоязычных слов.
  • С развитием компьютеров в 1990 г была разработана программа Dragon Dictate. Она распознавала до 100 слов в минуту, но отличалась высокой ценой.
  • В начале 2000-х годов в iPhone появилось приложение для распознавания речи Google Voice Search. В 2010 году была добавлена система поиска в Android.
  • Siri была включена в программное обеспечение Phone 4S в начале октября 2011 г;
  • в 2014 г была представлена Cortana - голосовая помощница для Windows.

Возможности Cortana и голосового ввода на сегодняшний день

«Кортана» - это виртуальный помощник в операционной системе Windows. Сервис помогает пользователю в планировании дел, напоминает о них.
При определенном запросе сервис поможет собрать конкретную информацию, создать четкую структуру и преподнести ее пользователю в максимально возможно обработанном виде.
Интересно, что сразу при включении виртуальный помощник собирает всю информацию о введенных запросах, личных данных, пытаясь максимально адаптироваться под каждого отдельного пользователя.


Голосовое управление компьютером Windows 7 посредством использования виртуального помощника невозможно – он интегрирован только в десятую версию. Но, как ни жаль, разработчики не удосужились выпустить русскоязычную версию.
Главную роль отыгрывает поиск, который в 10-ке можно открыть через «Пуск». Эта функция определяет практически любые запросы. Если вхождение не распознано – можно ввести соответствующую команду во всплывающее окно и программа голосового управления компьютером считает текстовую информацию.

Неприятный момент – сбор всех данных, введенных через клавиатуру, и их отправка в «Майкрософт».

Сторонние программы

Typle

После выполнения установки переходим к следующему шагу – создаем учетную запись. Здесь необходимо придумать ключевую фразу, после чего прозвучит уведомление об активации.


Дальше нужно будет придумать и создать голосовые команды, независимо от их предназначения. Команда «собака» может запускать приложение или выполнять совсем другое действие.




Просто нужно создать голосовую команду и закрепить ее за определенным действием. Подойдет только для выполнения базовых операций – открытия файлов, папок и пр. Функционал ограничен.

Speaker

Здесь функционал более широкий, нежели в Typle.


Голосовое управление компьютером Windows 10 предоставляет пользователю возможность открывать и закрывать файлы, делать снимки состояния экрана, выключать ПК.


Распознавание речи происходит довольно долго, свыше 3-4 секунд. Это обусловлено тем, что сначала речь преобразуется в текст, а команды распознаются компьютером уже с текстовой информации.

Laitis

Это бесплатная программа, которая позволяет как управлять ПК, так и диктовать текст. После установки необходимо зарегистрироваться и дальше можно пользоваться в свое удовольствие.


Интересна функция автозамены при наборе текста. Вы можете сказать «Кавычки» и в тексте появится соответствующий символ.

Возможности управления голосом через Яндекс.строку

Посредством использования этого приложения можно выполнять локальный или сетевой поиск информации и файлов, перезагрузить или выключить компьютер. Присутствует функция открытия программ и сайтов.
Чтобы воспользоваться программой, необходимо сначала скачать и установить ее.

Но при установке стоит убрать галочки напротив пунктов, где производитель софта предлагает установить браузер, поменять его настройки. В противном случае установка займет больше время и в браузере изменится конфигурация.
В конечном итоге строка размещается около кнопки «Пуск». Скажите «Слушай Яндекс» и откроется окно.

Проговорите запрос.

После паузы в браузере откроется строка поиска. Занимательно управлять поиском таким образом.
В целом, голосовое управление компьютером пока не развито, так как рисуется нам в воображении. Но и те функции, что имеются на сегодняшний день, уже впечатляют и существенно помогают перейти на новый уровень пользования ПК.

Отличного Вам дня!

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

Для работы на компьютере Александр использовал программу «Vocal Joystick» - разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Не удержался

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?


Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана новая программа (месяца за три).

Собственно, посмотреть, как она работает, можно :

Скачать программу и/или посмотреть исходные коды можно .

Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):

Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.

Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.

Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:
  1. Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
  2. Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
  3. Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
  4. Воплощение найденных звуков в движение/щелчки мыши
Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.

Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.

И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» - набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium.
Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг Функция sphinxbase Суть операции
1 fe_pre_emphasis Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2 fe_hamming_window Окно Хемминга – вносит затухание в начале и конце кадра
3 fe_fft_real Быстрое преобразование Фурье
4 fe_spec2magnitude Из обычного спектра получаем спектр мощности, теряя фазу
5 fe_mel_spec Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6 fe_mel_cep Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага.
Оставляем первые 13 значений результата.
Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.

Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов.

Давайте посмотрим, насколько оправдано применение нейронной сети здесь.

Вспомним, что делают нейроны в искусственных нейронных сетях.

Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает.

Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство.

Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C.


Итого, на выходе нейрона (обозначим его за Y) получаем:

Y=X1*W1+X2*W2+C

(опустим пока тонкости про сигмоидальные функции)

Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y<0.

Проиллюстрируем сказанное конкретными числами.

Пусть W1=1, W2=1, C=-5;

Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах.

Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона.

Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP).

А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках):

И тут уж без третьего слоя не обойтись:

А третий слой – это уже почти Deep Learning…

Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках.

Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так:

Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок.

Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована):

Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки:

Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов:

- Что ты думаешь, доедет то колесо, если б случилось, в Москву или не доедет?
- А ты как думаешь, сойдётся ента нейронная сеть или не сойдётся?

Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость».

Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы:

Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать?

А есть одна маленькая, но очень существенная деталь.

Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве.

Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства.

Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном - тем более.

А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала.

Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей.

Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого?

Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2.

Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2?

Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.
Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее.

И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей:

На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому):

Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу.

Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера.

Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер.

Никакая нейронная сеть не сможет более правильно отделить один звук от другого.

Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны.

Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?).

Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи.

Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть.

Общение с вашим устройством теперь не является мечтой или фрагментом фантастического фильма. С каждым годом голосовое управление Андроид расширяет свои возможности. Но такая тенденция распространяется также и на гаджеты с другими операционными системами, например, iOS. Благодаря голосовым командам можно узнать, месторасположение ближайшего кинотеатра, расписание общественного транспорта, прогноз погоды, курс валют и множество другой полезной информации. Кроме этого, они помогают пользователю управлять устройством. Уже сегодня с помощью речи на многих современных девайсах можно активировать будильник, включить Wi-Fi, воспроизвести аудио и видео, отправить текстовое сообщение, . На устройствах торговой марки Apple голосовое управление осуществляется с помощью всем известной вопросно-ответной системы Siri. Можно выделить несколько способов голосового управления на Андроид-устройствах.

Технологии не стоят на месте, и на сегодняшний день они дают нам возможность управлять гаджетами посредством голосовых команд

Приложения для голосового управления ещё не полностью интегрированы с русским языком. Для устройств, функционирующих на платформе Android, наиболее популярным и простым способом управлять смартфоном при помощи речи является команда «OK, Google». Но, к сожалению, она не всегда удовлетворяет потребностям, поскольку изначально разрабатывалась для англоязычных пользователей. В сравнении с англоязычной версией команда имеет меньше возможностей.

Кроме этого, русскоязычная «OK, Google» не так эффективна из-за недостаточного проникновения современных технологий в различные сферы жизни. Например, поиск может не найти расписание фильмов, которые транслируются в кинотеатре маленького города, либо информацию о ближайшей к вашему дому пиццерии.

Аналогичные сложности с интеграцией русского языка наблюдаются и на Apple-устройствах, где широко применяется Siri. Впрочем, если вы не планируете искать что-то привычное, например, расписание межрегиональных поездов, информацию об известном отеле, рецепт яблочного пирога, то голосовое управление способно гораздо облегчить задачу. Пользователи сталкиваются с трудностями, если необходимо оставлять «умные запросы», для которых требуются логика и всесторонний подход.

Как настроить команду «OK, Google»

Команда «OK, Google» активна, если запущено приложение Google либо браузер Google Chrome. Для корректной работы необходимо проверить . Это можно сделать в открытом приложении Google. В верхнем левом углу есть значок, который позволит зайти в настройки. Он представляет собой три параллельные горизонтальные линии и наверняка знаком всем поклонникам продуктов Google. После этого следует выполнить простую команду: Настройки - Голосовой поиск - Распознавание «О’кей, Google». Далее следует активировать параметр «Из приложения Google».

Благодаря такой настройке команда может применяться в любом режиме работы гаджета, например, в активном режиме или режиме заряда аккумулятора. После этого система зафиксирует ваш голос, после чего не должно возникать проблем с распознаванием запросов.

Если команда «OK, Google» не активируется на вашем смартфоне, значит, вы используете устаревшую версию Андроид. Необходимо обновить версию программного обеспечения вашего смартфона. Перед активацией убедитесь, что на девайсе установлена последняя версия приложения Google. Убедитесь, что установленная версия Андроид не ниже 4.4 и приложение Google не ниже версии 3.5.

После того как все параметры настроены, можно протестировать голосовое управление. Необходимо произнести: «О’кей, Google» и сформулировать ваш вопрос или задачу для мобильного устройства. Активные пользователи такого сервиса без проблем могут найти необходимую информацию. Мы рекомендуем ознакомиться с полным списком голосовых команд, которые поддерживает такой способ голосового управления.

Обзор приложения «Ассистент на русском языке»

Недостатком программы голосового управления для Андроид под названием «Ассистент на русском языке» является наличие платной версии. Многие считают такое приложение достойным ответом «Siri». Его без проблем можно установить из магазина . Юзерам даётся семь дней, в течение которых будут доступны все функции приложения. Благодаря тестовому периоду каждый сможет оценить достоинства программы, чтобы решить, насколько важно иметь её на своём смартфоне.

Приложение общается с вами женским голосом. Оно выполнит любой запрос, будь то поиск необходимой информации или активация встроенных функций телефона, таких как будильник, переводчик, напоминания. Такая программа умеет открывать другие установленные приложения по вашему запросу. ПО можно установить на самые разные версии Андроид, начиная с 2.3.

Многие пользователи высоко оценивают возможности «Ассистента на русском языке». В этом можно убедиться, ознакомившись с рейтингом и числом закачиваний такого ПО. Перед тем как начать работу с ним, необходимо установить Голосовой поиск/ввод от Google. Если вы в поисках удобного помощника, советуем вам протестировать «Ассистент на русском языке».

Популярное приложение «Ассистент»

Если вы желаете найти голосовой помощник, который смог бы поддерживать несколько языков, то вам необходим «Ассистент». Вы сможете использовать немецкий, английский, испанский, португальский языки наряду с русским. Разработчики обещают интеграцию новых языков в Ассистент. Программа удостоена высоких оценок со стороны экспертов. Журнал «New York Times» отнёс её к десятке . «Forbes» включил её в десятку лучших по производительности.

Кроме поиска информации по голосовым запросам, «Ассистент» запоминает важную информацию, например, название часто используемых приложений либо часто посещаемых мест. Преимуществом будет учёт программой информации о вашем месторасположении для показа релевантных результатов поиска. Приложение можно настроить с учётом индивидуальных особенностей, например, задать специальные голосовые команды.

Необходимо бесперебойное подключение к Интернету для выполнения приложением своих функций. В скором времени ожидается появление офлайн-технологии голосового управления, которая целиком обеспечит активацию функций телефона с помощью одной фразы без соединения с Интернетом. Важно отметить, что «Ассистент» на сегодняшний день является удобным платным приложением.

Голосовое управление - это технологии будущего, которые претерпевают развитие каждый день. Эра голосовых команд началась с помощницы Siri, которую можно установить на iPhone 4S и более поздние модели. Сегодня приложения для с помощью голоса позволяют не только осуществлять быстрый поиск в Интернете, но и управлять возможностями телефона, такими как осуществление звонков, рассылка сообщений, активация будильника. Многим пользователям будут полезны такие функции. Кроме того, подобный искусственный интеллект вызывает неподдельный интерес у обывателя. Многие воспринимают такое общение со смартфоном как развлечение.

Жми "Нравится" и читай лучшие посты на Facebook

Цифровые технологии стремительно развиваются, предлагая нам новые возможности по взаимодействию с устройствами. Постепенно набирает популярность управление устройствами с помощью голоса. Компания Яндекс решила так же не отставать от тренда и предлагает свое решения для компьютеров под управлением операционной системы Windows.

Приложение называется Яндекс.Строка и позволяет управлять компьютером с помощью голосовых команд, выполняя такие операции как поиск в интернете, поиск файлов и папок на компьютере, умеет открывать сайты и запускать программы. Можно даже голосом выключить или перезагрузить компьютер. В этом плане она более функциональна чем голосовой поиск Google, а более продвинутая технология от Майкрософт под именем Cortana работает только в Windows 10 и недоступна в России.

Хотя сразу нужно отметить, что Яндекс.Строка работает только начиная с Windows 7 и старше, соответственно Windows 10 так же поддерживается. Естественно еще одним обязательным требованием является наличие микрофона в компьютере. Скачать установочный файл Яндекс.Строки можно на странице нажав на кнопку «Установить» и сохранив его к себе на компьютер, после чего запустив установку. Можно отметить, что при этом не предлагается установка дополнительного софта или изменение настроек браузера. По окончании процесса установки на панели задач появится новый элемент.

Его внешний вид можно изменять в настройках программы, например переместив в правую часть панели задач к часам или заменив строку на иконку программы.

Пользоваться «Яндекс Строкой» довольно просто, после установки она находится в режиме ожидания. Чтобы ее активировать на выбор предлагается три варианта, щелкнуть мышью по значку микрофона в яндекс строке, нажать комбинацию горячих клавиш или произнести вслух одну из следующих команд «Слушай Яндекс», «Привет Яндекс» или «О’Кей Яндекс». Если все сделано правильно и система распознала команду, то появится соответствующее окно, сигнализирующее готовность приложения принимать дальнейшие голосовые команды пользователя компьютера.

Теперь можно произносить нужную команду. Если это будет произвольная фраза, то она будет интерпретирована как поисковый запрос в интернет и результат будет показан в браузере по умолчанию с помощью поисковой системы Яндекса. В некоторых случаях, ответ показывается прямо в окне приложения без использования браузера.

Аналогичным образом выполняются другие команды, с той лишь разницей, что сначала указываем суть команды, а затем объект. Другими словами, чтобы открыть допустим какую то папку на компьютере в Проводнике, нужно сначала активировать Строку, а затем произнести «Открыть папку „название папки“».

Вот еще несколько примеров команд.

Открыть сайт: «Открой „название сайта“»Запустить программу: «Запусти „название программы“»Открыть файл: «Открой „название файла“»Выключение компьютера: «Выключить компьютер»

Таким же образом можно отправить компьютер в перезагрузку или спящий режим, запустить различные служебные окна, например «Открой панель управления». На этом возможности Строки Яндекса не заканчиваются, в нее можно вводить команды с помощью клавиатуры, а так же используя буфер обмена Windows. Это так называемая умная поисковая строка, в которой по мере набора символов, будут предлагаться различные варианты ответов. При этом в отличие от штатной поисковой строки в меню Пуск, Яндекс.Строка предлагает дополнительно варианты ответа из поиска в интернете.

Кроме того ее можно использовать как панель быстрого доступа к сервисам Яндекса или другим часто посещаемым вами сайтам. Достаточно просто щелкнуть мышью по строке и откроется окно, показанное на изображении в начале статьи.

Проблема всех систем управления голосом и Яндекс.Строка не исключение заключается в необходимости четко и ясно произносить команды, иначе они распознаются не верно. В частности даже распознав практически правильно фразу, зачастую она в итоге преобразуется в поисковый запрос вместо открытия папки, запуска программы или открытия конкретного сайта. Таким образом открыть с помощью голосовой команды получится далеко не любой сайт, это неплохо работает с очень популярными и известными ресурсами, а в остальных случаях это проблематично.

Особенностью работы утилиты Яндекс.Строка с данными хранящимися на компьютере, является использование для поиска по ним данных службы индексирования Windows. Соответственно в случае отсутствия данных о файле или папке в индексе приведет к некорректным результатам работы поиска. Таким образом, в настоящий момент ее нельзя назвать полноценным инструментом позволяющим управлять компьютером с помощью голоса, хотя русский язык распознает довольно хорошо и с некоторыми функциями вполне справляется.

Другой особенностью систем голосового управления компьютером, которая может отпугнуть часть пользователей, является постоянное прослушивание программой пространства рядом с компьютером в ожидании команды на активацию. Соответственно теоретически возможна несанкционированная запись всех разговоров пользователя и отправка их на удаленный сервер. Конечно это уже незаконное прослушивание, но теоретически возможно.

Если отбросить тотальную паранойю, то можно вспомнить, что некоторые разработчики программ голосового управления вполне допускали отправку к себе на сервер введенных голосовых фраз пользователей для дальнейшего улучшения алгоритмов распознавания речи. Как к этому относиться и стоит ли пользоваться голосовым управлением на компьютере каждый решает самостоятельно.

beginpc.ru

Как настроить голосовое управление компьютером

Существует несколько причин, по которым пользователи не могут управлять компьютером с помощью штатных средств - клавиатуры и мыши. Во-первых, это может быть связано с поломкой названных устройств. Во-вторых, такая необходимость возникает у людей с ограниченными возможностями. И наконец, в-третьих, пользователи просто хотят как-то облегчить себе задачу работы с компьютером, отдавая ему команды голосом.

ОС Windows располагает штатным приложением распознавания речи, но к сожалению, оно не поддерживает русский язык, а только - английский, французский, испанский, немецкий, японский и китайский.

Если интерфейс вашего дистрибутива Windows рассчитан для носителей одного из вышеперечисленных языков и, конечно, вы говорите на нём, тогда вы сможете использовать штатную программу распознавания речи. Для этого нужно проделать 3 шага: настроить микрофон, пройти несложный учебный курс по управлению компьютером при помощи голоса (он также включен в Windows) и настроить саму программу распознавания речи.

Чтобы сделать это, необходимо (описание разделов ОС будет вестись на русском языке):


А что же делать русскоязычным пользователям Windows? К счастью, выход есть - использование сторонних программ. Подобных приложений существует множество - и платных, и бесплатных. Среди всех приложений для голосового управления компьютером с системой Windows особенно выделяется Typle. О ней и пойдёт речь далее.

Управление компьютером с помощью Typle

По мнению большинства пользователей, кто предпочитает управлять компьютером при помощи голоса, программа Typle является одной из самых лучших (если не самой лучшей).

Это небольшое по размеру приложение способно не только выполнять команды, имеющиеся в её базе данных, но и поддерживает создание пользовательских. Именно последнее особенно ценится в этом приложении.

Программа распространяется бесплатно, но в бесплатной версии имеются ограничения по созданию пользовательских команд. Однако этих возможностей вполне достаточно для штатного пользователя.

Итак, скачиваем и устанавливаем программу. При первом запуске приложение попросит ввести некоторые личные данные - в эти поля вы можете указать любые символы. Затем вам предстоит выбрать лицензию - выбирайте первый вариант из 3-х предложенных (пока все надписи будут на английском языке) и нажимайте Next.

После того, как приложение соберёт нужную ему для работы информацию, вы увидите стартовое окно с подсказками:

Typle попросит вас нажать на кнопку «Добавить». После нажатия потребуется ввести ваше имя (вводите любое) - это нужно для того, чтобы приложение смогло выполнять именно ваши команды в случае, если вы не являетесь единственным пользователем компьютера. Также заполняем поле «Введите ключевое слово» (можно оставить предложенный вариант «Открой»). Именно это слово будет использоваться для запуска ваших команд, а точнее - эта фраза даст программе сигнал к выполнению команды, которую вы будете произносить далее.

Осталось нажать на кнопку записи, а затем произнести какую-либо фразу (длина записи должна быть короче 1,5 секунд). Для проверки можете проговорить «Открой». После успешной записи Typle спросит вас о сохранении записанной команды.

Далее нажимаем на кнопку «Добавить» в верхнем меню. Откроется окно, в котором вам нужно выбрать программу для её запуска после произнесения ключевого слова в микрофон. Для примера выберем приложение «Opera 35» (вы можете выбрать любую свою программу - браузер, проигрыватель или какой-нибудь мессенджер типа Skype).

Обратите внимание на нижнюю часть окна. В данный момент галочка установлена на пункте «Программы и файлы». Вы также можете выделить и другие пункты. Например, установите галочку на «Windows файлы». Теперь в окне выбора команд для запуска отобразятся стандартные программы Windows (блокнот, Paint, командная строка и так далее), а также различные системные приложения, такие как «Центр обновления» или «Мастер дефрагментации диска» и другие. Это удобная возможность для пользователей, которым часто приходится сталкиваться с настройкой системы компьютера.

Ещё одна интересная способность Typle - возможность открывать избранные интернет-сайты. Для этого нужно установить галочку на пункте «Фавориты Интернета» и выбрать из списка нужный сайт.

Как только вы выбрали подходящее действие, для его выполнения потребуется записать команду. Для этого нажимаем на значок записи рядом с полем, в котором написано название выбранного действия (программы, сайта и тому подобное), а затем произносим любую фразу. В нашем случае - это «Опера».

После успешного сохранения записи вы можете проверить правильность выполнения команды с помощью программы Typle. Для этого вам нужно проговорить в микрофон слово «Открой», а затем сразу фразу, которая была записана вами на последнем шаге для запуска той или иной программы. В нашем случае команда звучит как «Открой Опера». После этих слов программа автоматически запустит браузер.

Как видите, управлять компьютером средствами программы Typle не так уж и сложно. Вы можете создать множество различных команд, при произнесении которых будут запускаться те или иные приложения, открываться документы либо начинаться воспроизведение видео или музыки.

Видео по теме - программа VoxCommando

Хорошая реклама:

UstanovkaOS.ru

Typle - голосовое управление компьютером

Сегодня речь пойдет о нашей речи. Хотелось бы вам управлять компьютером голосом, без помощи пальцев? А, как это говорят, - силой мысли! Правда, мы не будем управлять компьютер силой мысли, но вот силой голоса вполне реально.

Программа Typle - это одна из лучших на сегодняшний день программа Windows для управления компьютером через голос. На сайтах в комментариях к этой программе мнения сходятся.

Правда есть свои недочеты. Но об этом чуть позже. Кстати, если вас интересует голосовой набор текста - читайте мой обзор.

Скачать программу можно здесь: http://freesoft.ru/typle

Как же ее использовать? В начале запустим ее и посмотрим главные кнопки управления:

Программа нас приветствует и сразу нам даются подсказки, как использовать Typle. В начале нажмем кнопку "добавить" и запишем слово, например "открой". Для этого произнесем это слово в микрофон:

Затем жмем добавить. Итак, мы сохранили в программе своим голосом слово "Открой". Вы можете говорить в микрофон любые другие слова. Главное - не запутаться.

Следующим шагом будет добавление команд. Для этого перейдем в этот пункт:

Потом мы устанавливаем галочку напротив того пункта, который нам нужен:

Выбираем программу, приложение или действие и нажимаем на красную кнопку записи. Если компьютер воспринял наш голос, жмем "Добавить":

И теперь будет видна в нашем профиле одна голосовая команда. В данном случае та, которая открывает 7-Zip:

И теперь, нажав завершающую кнопку "начать говорить"

говорим фразу "открой Севен Зип". В моем случае, все сработает. И программа 7-zip откроется. Помните такую фразу: Сим сим откройся? Вот это что-то приблизительно такое же.

Программа не всегда работает адекватно. Сейчас могучий русский язык не до конца изучен программистами-лингвистами... Но все-таки приятно, когда тебя слушается компьютер.

Поэтому для тестирования и банального любопытства программа Typle подойдет на все 100%.

В этом видео можно увидеть историю создания первых голосовых движков и то, над чем еще нам следует поработать:

Есть такие страшные названия других аналогов программы, как Горыныч, Перпетуум, Диктограф, Voice Commander. Но все они - "не того". Не проходят критику достойной программы.

P.S. На освоение этой программы у меня ушло 5 минут. Это довольно-таки длительное время (в основном, в таких программах я разбираюсь за 1-2 минуту). Если возникнут вопросы - пишите. До скорых встреч, друзья:)!

Понравился пост? Нажми любую кнопку:

teweb.ru

Управление компьютером голосом - Управление компьютером без рук

По многочисленным просьбам посетителей этого сайта: мы представляем вам ответ на вопрос: Как управлять компьютером голосом. Или голосовое управление компьютером. По русски конечно. Странно, но голосовое управление компьютером, windows - не очень популярно в сети и в среде программистов. Таких интересных программ для голосового управления не очень много.Тем более если говорить о голосовом управлении на русском.

А ведь это востребованно. Вот например (обратите внимание на комментарии слева): "сделайте как в железном человеке, когда он с компом разговаривает всё время, чтоб он команды выполнял открывал папки и программы". Это комментарий - просьба посетителя сайта мой мир.

Ну конечно прямо вот так мы не сделаем, но чем нибудь поможем. Заметьте мы не говорим просто о программах разпознавания речи или даже о программе разпознавания русской речи (это было в нашей статье "Как поговорить с компьютером". Сегодня статья об управлении, система управления. Голосовое управление компьютером.

Именно чтобы можно было отдавать комманды компьютеру - а он выполнял. Представляем на ваш суд интересные программы по управлению компьютером голосом.


1. Typle - голосовое управление компьютером. По результатам тестирования - прога супер. Распознавание речи - на высоком уровне (даже через обычный микрофон встроенный в вэб камеру). Это действително программа голосового управления по русски. Интерфейс очень понятен и прост. Очень интересная и нужная программа. Скачать бесплатно Typle также можно здесь.2. Speaker - ну очень интересная программа по голосовому управлению и разпознаванию русской речи. Работает просто и быстро. Единственное, что нужно - это подключение к интернету. Это своего рода облачное приложение. Но всё работает. Спасибо разработчикам. Вот их сайт: http://голосовоеуправление.рф Бесплатно скачать приложение по управлению компьютером голосом также можно здесь.

Итак, если вы хотите управлять компьютером без мыши и клавиатуры, управлять компьютером и программами голосом, т.е использовать голосовое управление: пробуйте эти интересные программы.Для вашего удобства мы собрали все три программы в один архив. Там же есть Microsoft .NET Framework 4 кому нужно Скачать можно здесь бесплатно. Или тут. Всё на русском, всё бесплатно и без регистрации.

sites.google.com

Управление голосом и жестами на компьютере

Какой гик не мечтает управлять компьютером с дивана одними только жестами и голосовыми командами? Как ни странно, но это уже возможно. А в самом ближайшем будущем каждый второй будет махать руками перед монитором. В статье рассматривается несколько способов и ближайших перспектив.

Управление голосом на Windows

Начнем с бесплатного софта, который позволяет управлять компьютером с помощью русской речи. Можно будет уговорить его открывать программы, выполнять какие-то действия и так далее. И ваши руки будут свободны для более важных дел.

Typle

Данная программа лидер среди программ, позволяющих командовать компьютером на родном русском языке. После установки нужно будет завести пользователя и придумать ему ключевое слово вроде «Ok, Windows», хотя нам советуют слово «Открой». Именно с него мы и начинаем говорить, знакомая реализация в Google Glasses существует.

Потом для пользователя выбираем команды. Можно добавить только запуск каких-либо программ, а при нажатии дополнительно самостоятельно выбрать программу и дописать какой-либо аргумент. Возможно, если что-то дописать к запуску программы, то будет и действия. Но в целом, обычному пользователю поуправлять компьютером полноценно не получится, никаких тебе пауз или следующий трек, только запускать и запускать.

Скачать программу можно с официального сайта бесплатно. Либо купить платную версию за 13$, если вам надо записать более 450 команд, хотя это вряд ли.

Существует, как минимум, 5 подобных программ с голосовым управлением на компьютере, но все они сильно уступают Typle. О некоторых вы могли слышать, к примеру, русская разработка Горыныч,которая на деле очень слабо или вообще не распознает. Мне даже удалось найти какой-то аналог Siri для компьютера, который создал один человек и назвал Russian Voice Control.

Speaker

Есть и менее популярные, но чем-то более хорошие. Одна из таких Speaker. Она не только позволяет запускать приложения и файлы, но и выполнять несколько команд, таких как смена раскладки клавиатуры, сделать скриншот и даже выключить компьютер. Последнее не советую использовать, чтобы случайно не было чего. Команд все равно мало и свои не добавишь, и снова же, управление плеером нет.

Отмечу здесь как все работает. Надо использовать среднюю кнопку мыши или ctrl на клавиатуре, чтобы началась обработка голоса. Довольно популярные клавиши, которые используют и другими программами, так что будет время от времени вылезать окошка «не удалось распознать голос:(»

Нажал на кнопку, сказал слово «контакт», запись отправляется на сервер, а потом возвращается обратно полученный текст и выполняется действие - заходить на страницу ВКонтакте. На все это 5-10 секунд уходит, не совсем скорость, но для бедных программистов тоже результат неплох. Как вы поняли, нужно постоянное интернет-соединение, но сейчас это уже не проблема.

Команды задаются текстом, а не записью в отличии от Typle. А потом распознанный текст уже сравнивается с командами. Распознавание отличное с точностью до буквы, а вот сам запуск не такой уж и удобный.

На практике, я не использую голосовое управление, потому что микрофон всегда должен быть рядом. У меня хоть и есть купленный микрофон, но на расстоянии 1 метра он меня не слышит. Да и когда говорю тоже не с первого раза может сработать. С управлением жестами все гораздо интереснее.

Скачать можно отсюда.

Управление жестами на компьютере

Еще с момента появления PlayStation®Eye Camera и kinect люди захотели такие же функции и на компьютере. Позже Kinect даже стали продавать разработчикам, но для общего пользователя такого продукта не анонсировали. И даже есть новость, что Kinect 2.0 с Xbox One не будет работать на компьютере, но выйдет специальная версия Kinect и для PC. Правда без соответствующего софта пользы от него мало. Так что перейдем к самому софту.

Flutter

Самым популярным и доступным способом управления жестами является программа Flutter и соответствующее Chrome-расширение. Для этой программы подойдет почти любая веб-камера.

Довольно мало функций, но зато они очень хорошо работают. Мы можем ставить на паузу и продолжать показывая ладонь. Переключать треки или видео налево или направо, в зависимости, куда укажем пальцем. Работает программа в PowerPoint, VLC, Winamp, iTunes, YouTube и нескольких других сервисов, которые мало кто у нас использует.

Лидером среди программ для голосового управления компьютера на русском языке является программа Горыныч 5.0. В прочем английский язык также подвластен данной программе. С помощью «Горыныча» можно задавать различные голосовые команды компьютеру: запустить программу, закрыть окно, создать новый документ, перезагрузить или выключить компьютер. Фактически голосовым управлением вы контролируете большинство процессов пользовательской работы в системе Windows без помощи клавиатуры и мышки. Голосовое управление программы позволяет набирать текст на компьютере без использования клавиатуры и мышки. Но здесь возникает несколько нюансов. Один из плюсов программы Горыныч это слушаться голоса только своих хозяинов. И для этого нужно предварительно настроить программную базу команд. Нужно самостоятельно научить своим голосом русскому языку Горыныча. С помощью микрофона вы формируете свой словарь записываемый именно вашего с голоса. Команды голосового управления компьютером могут быть пользовательские, но для набора документов приодеться приложить усилия, чтобы сделать базу богатой словарным запасом. Поэтому для голосового набора все же лучшим решением будет онлайн-серис от Google.

Полезные программы для голосового набора текста на компьютере с поддержкой русского языка.

Горынычем лучше других программ русским голосом управлять компьютером, а голосовой набор текста рекомендуется производить в онлайн-приложении Google Web Speech. Оно доступно только для браузеров Chrome. Web Speech поддерживает 32 языка (среди них даже японские и китайские иероглифы). Для того чтобы напечатать текст с помощью колоса нужен только интернет, браузер Chrome и микрофон. Русский язык программа прекрасно понимает и выдает результат целыми словами переводя устную речь в печатный текст. Сейчас уже закончились разработки платного приложения для аудио и даже видео распознании речи компьютером. Программа RealSpeaker способна распознать не только голос, но и мимику пользователя. Для ее использования подойдет обычная веб-камера с помощью, которой программа будет «читать по губам» пользователя компьютера. Такой подход повышает эффективность во голосовом управлении с помощью преобразования не только речи, но и мимики в текстовые команды. RealSpeaker уже сегодня имеет поддержку русского и еще 10 популярных языков. Программа рассчитана для платформ Windows7 / 8. После инсталляции программу следует настроить. Голову нужно держать ровно, нежелательно допускать частых потерь контакта лица с веб-камерой. Расстояние от веб-камеры желательно не превышать 40-ка см. Присутствует словарь с русским языком, который можно расширить. Но в целом, по сравнению с Горынычем, RealSpeaker более удобен для преобразования голоса в текст.

Работая над голосовым управлением компьютеров, было создано много программ.

Распознанием речи с помощью компьютера программисты-разработчики посвящали свои труды голосовому управлению еще со времен Windows 95. За это время было создано много программ для русского голосового управления компьютера и преобразования речи в текст. Среди них набрали популярность такие программы:

  • Диктограф 5;
  • Перпетуум мобиле;
  • КОМБАТ Vocative Russian ASR Engine.

Для английской речи были популярными программы:

  • MedSpeak;
  • Sakrament ASR Engine;
  • ViaVoice;
  • Voice_PE;
  • Lucent;
  • VoiceType;
  • Sakrament;
  • Voice Xpress Pro;
  • iVoice;
  • Philips FreeSpeech 98;
  • SR-TTSC.

На сегодняшний день программы лидеры в данной области:

  • Горыныч 5;
  • Web Speech;
  • RealSpeaker;
  • Dragon (только для английского языка).

Эти четыре программы выдают наиболее оптимальный результат в компьютерном преобразовании речи в команды и текст. Можно сказать, что особо выбирать нет из чего. Проблема речевого преобразования в компьютерные команды и текст является все еще актуальной. Это пока еще свободная ниша для программистов-разработчиков. Еще очень мало создано достойных продуктов в этой отрасли.