Содержание

Как работает голосовой поиск и какой помощник лучше всех

Технологии распознавания голоса плотно внедрились в нашу жизнь. В смартфонах и даже бытовой технике появились виртуальные помощники, которые готовы выполнить команды, стоит только сказать слово. Что собой представляет данная технология, и какие компании представили свои решения — разбираемся вместе.

Как это появилось

Первые системы распознавания речи в 60-70-х годах определяли только цифры с невысокой точностью, поскольку многое зависело от диктора. Среди ведущих разработчиков были IBM и Bell.

В 70-80-х годах системы научились распознавать до 1000 слов, а точность определения повысилась до 80-90 %. С новым тысячелетием в гонку «речевиков» вступили Microsoft, Google и Apple, представив своих голосовых помощников.

Как работает распознавание речи

Каждая компания имеет свои авторские технологии, но в целом можно выделить несколько общих видов систем:

Распознавание отдельных команд. Нужно раздельно произнести словословосочетание, и распознавание происходит по имеющейся базе слов.
Распознавание по грамматике. Выполняется анализ по фразам, которые соответствуют существующим наборам правил.
Распознавание слитной речи на большом словаре. Фраза дословно преобразуется в текст и сравнивается с имеющимся словарем.
Распознавание речи с помощью нейронных систем. Современный метод, который позволяет создавать самообучающиеся системы.

А еще могут использоваться методы скрытых Марковских моделей, блок распознавания на элементах ассоциативной осцилляторной среды и другое. Это сложные математические алгоритмы, в которые мы не будем углубляться.

Если рассматривать общую схему преобразования для современных голосовых помощников, то можно выделить несколько этапов.

Гаджеты слышат только звуковые колебания (волны) различных частот и амплитуд. Задача алгоритмов распознавания — выделить среди этого сигнала отдельные слова и распознать их. Вы заметили, что голосовой помощник Google и некоторые другие не работают без доступа к интернету? Все потому, что распознавание вашего голоса выполняется непосредственно на удаленных серверах.

Сигнал очищается от помех и выделяется значимая часть. Далее следует разделение на небольшие фрагменты — фреймы, которые накладываются друг на друга с определенным шагом. Длина такого «окошка» обычно 25 мс при шаге в 10 мс. Перекрытие необходимо для того, чтобы уловить не только звуки, но и момент перехода. В среднем для хорошего уровня распознавания требуется до 100 фреймов на одно слово.

После система начинает выделять признаки. Выполняется анализ спектральных и динамических характеристик речевого сигнала. Алгоритмы учитывают динамику и тембр речи.

Далее каждый фрейм пропускается через акустическую модель, в которой выделяются отдельные слова. Ориентиром служат небольшие паузы, которые мы обычно делаем между словами. Алгоритм высчитывает специальный порог (уровень сигнала). Все, что выше него, считается речью, ниже — тишиной (молчанием во время паузы).

Выделив предполагаемые слова, каждый фрейм обрабатывается нейронной сетью для поиска фонем — минимальных смыслоразличительных единиц языка. Система пытается определить, что конкретно было сказано в каждом фрейме и, сравнивая с базой, выдает наиболее вероятный результат.

Финальный шаг — граф-декодирование. Собранные вероятности анализируются, и выдается результат с учетом языковых особенностей. Система также учитывает вероятности перехода. Например, шанс, что два предлога будут стоять друг за другом, достаточно небольшой. Плохо распознанные слова также могут быть восстановлены по смыслу с учетом собранной статистики.

При использовании нейронных сетей распознавание речи даже с акцентом выполняется с точностью более 90 %.

Голосовой помощник на ПК

Пользоваться голосовым помощником можно и на персональных компьютерах и ноутбуках. Для этого понадобится доступ в интернет и подключенный микрофон.

В Windows доступна Cortana, которую можно скачать в Windows Store. Однако в списке поддерживаемых языков нет русского, а также приложение не будет работать на старых версиях ОС.

Cortana на ПК позволяет общаться с людьми, управлять расписанием, находить свободное время в графике, устанавливать напоминания и добавлять задачи. Чтобы включить Кортану, вам придется поставить в настройках Windows регион США, сменить язык на английский и перезагрузить компьютер. После этого в интерфейсе появится соответствующий тумблер.

В Google Chrome доступен поиск по голосу — достаточно на стартовой странице нажать иконку микрофона и произнести нужный запрос. Это не полноценный помощник — пользователи смогут голосом только запускать поиск в Google.

Алиса — наиболее продвинутое решение для ПК. Она уже встроена в последнюю версию Яндекс-браузера. Помимо стандартных возможностей, тут она может еще открывать каталоги на компьютере и даже запускать программы. Алиса автоматически распознает запрос, как только вы начнете говорить или произнесете ее имя, нажимать дополнительно на кнопку не нужно.

Siri уже предустановлена на Macbook. Для ее включения необходимо нажать аппаратную или программную кнопку. Также работает фирменная фраза «Привет, Siri».

К другим программам голосового управления компьютером относится:

Laitis — бесплатный софт с поддержкой русского, украинского и английского языков. Приложение имеет широкий функционал по управлению ОС и работе с веб-сайтами. Редактор позволяет создавать собственные голосовые макросы. Полный список команд можно посмотреть на сайте разработчиков.
Typle — относительно старый софт, с помощью которого можно настроить голосовое управление компьютером. Главное неудобство — все команды необходимо «программировать» самостоятельно для каждого отдельного ярлыка и файла.

Голосовое управление на ПК еще не столь востребовано, поскольку необходим микрофон, а большинство команд намного быстрее и удобнее выполнить с помощью привычной клавиатуры с мышкой.

СХЕМА ДЛЯ ГОЛОСОВОГО УПРАВЛЕНИЯ

Ознакомившись с принципом работы тонального декодера, рассмотрим несколько экспериментальных схем, реализующих голосовое управление нагрузкой. В основе частотных фильтров – микросхема LMC567CN. Выбор именно этой микросхемы обусловлен её экономичностью, так как предполагается, что микросхема может использоваться в устройствах с бестрансформаторным питанием, например, с гасящим балластным конденсатором. Если ограничений по экономичности питания нет, то можно применить биполярный функциональный аналог – микросхему типа LM567 (отечественный клон — КР1001ХА01). На рисунке показана схема, декодирующая частоту гласного звука «<Й”Э>» в командном слове «СВЕТ»:

В этой и следующих схемах микрофонный усилитель реализован на операционном усилителе DA1 типа КР140УД1208. Особенностью микросхемы является возможность установки тока потребления резистором (на схеме – R5), подключаемого к выводу 8DA1, что позволяет использовать схему в экономичном режиме. Коэффициент усиления задает резистор R4, включенный между выводами 2DA1 и 6DA1. Этим резистором устанавливают чувствительность схемы к голосовым командам. Резисторы R2 и R3 формируют виртуальную среднюю точку питания DA1, устанавливая на неинвертирующем входе 3DA1 примерно половину напряжения питания. С выхода 6DA1 усиленный сигнал через разделительный С3 и ограничивающий ток R6 поступает на ограничитель уровня переменного напряжения – два встречно параллельных германиевых диода VD1 и VD2. Диоды ограничивают сигнал на уровне

300…400mV от пика до пика. Через R7 и разделительный С6 ограниченный сигнал поступает на вход 3DA2. Резисторы R9, R10 и конденсатор С7 задают частоту опорного генератора (центральную частоту ГУН). Резистором R10 добиваются появления низкого уровня на выводе 8DA2 при произношении команды «СВЕТ». На стоке транзистора VT1 (общая точка соединения резисторов R11, R12 и диода VD3) сигнал инвертируется — появляется лог.1. Триггер DD1.1 работает в режиме одновибратора, постоянная времени которого задана элементами R13 и С9. С указанными элементами время равно приблизительно одной минуте.

Как правило, звуковые помехи носят случайный и кратковременный характер. Интегрирующая цепь R12-С8 необходима для подавления этих помех. При декодировании команды «СВЕТ» или звука помехи, на выходе 8DA2 появляется низкий уровень и VT1 закрывается. Через R11 и R12 начинает заряжаться С8. Время заряда С8 больше длительности помехи, поэтому, гласную букву «Е» в слове «СВЕТ» следует произносить немного дольше обычного – свЕ-Е-Ет. Когда помеха прекращается, то С8, заряженный до некоторого уровня напряжения, быстро разряжается через VD3 и открытый канал сток-исток транзистора VT1. Это самый простой способ отсечь звуковые помехи с такой же частотой, что и звук гласной буквы «Е». Команда звучит дольше помехи, поэтому С8 зарядится до порога переключения триггера DD1.1 по входу «S». Триггер переключится в «единичное» состояние – на основном выходе лог.1, а на инверсном – лог.0. Через открытый VD4 конденсатор С8 быстро разрядится, а С9 начнет заряжаться через R13. В зависимости от логики работы исполнительного устройства, сигнал управления можно снять с выходов 1DD1.1 или 2DD1.1. Если во время работы исполнительного устройства опять поступит команда, то это ничего не изменит, т.к. С8 зашунтирован низким уровнем напряжения с 2DD1.1 через открытый диод VD4. Приблизительно через минуту напряжение на С9 достигнет порога переключения триггера по входу «R», триггер вернётся в исходное «нулевое» состояние и С9 быстро разрядится через открытый VD5. Нагрузка обесточится. Для проверки устройство собиралось на заводской перфорированной плате. Вместо транзистора КП501А (VT1) был установлен «телефонный» токовый ключ типа КР1014КТ1В:

Ролик, демонстрирующий работу схемы на РИС.1 показан ниже. Счёт имитирует звуковые помехи, при этом видно, что синий светодиод, установленный в стоковой цепи транзистора VT1, гаснет, но лампа не включается – длительность помех мала. Длительность команды «СВЕТ» больше – лампа включается. Команды «ЛАМПА» или «ГОРИ» не включают лампу:

Читать статью Где стоит блок комфорта на приоре

Видео 1

Второй ролик демонстрирует работу устройства, реагирующего на команду «ГОРИ» с автоотключением нагрузки. Схема устройства не менялась – такая же, как на РИС.1, но опорный генератор DA2 подстроечным резистором R10 настроен на частоту звука «И». Кроме того, номинал резистора R4 в цепи обратной связи DA1 увеличен до 5,1 мегаома, что определило чувствительность усилительного тракта – команда подаётся с расстояния пяти метров от микрофона. Здесь также счёт имитирует звуковые помехи. Интересно отметить, что на команду «ВКЛЮЧИСЬ» устройство не реагирует, хотя гласный звук «И» по длительности совпадает с гласным звуком «И» в команде «ГОРИ». Можно предположить, что звук «И» после согласного звука «Ч» в команде «ВКЛЮЧИСЬ» имеет более высокую частоту по сравнению со звуком «И» после согласного звука «Р» в команде «ГОРИ»:

Видео 2

На рисунке 2 показана схема голосового управляющего устройства, принимающего две команды «СВЕТ» и «СТОП», которое позволяет включить или отключить нагрузку.

Предположим, при подаче питания триггер DD1.1 установился в состояние, при котором на выводе 2DD1.1 – лог.1, а на выводе 1DD1.1 – лог.0. Диод VD5 закрыт, а VD6 открыт и шунтирует конденсатор С8. Частота опорного генератора DA1 подстроечным резистором R4 настроена на частоту звука «<Й”Э>» в командном слове «СВЕТ». При произношении команды и декодировании, транзистор VT1 закроется, поэтому начнется зарядка С7. При достижении напряжением порога переключения DD1.1 по входу «S», триггер переключится в «единичное» состояние при котором на выводе 2DD1.1 – лог.0, а на выводе 1DD1.1 – лог.1. Лог.1 поступит на затвор VT2 и откроет его. Открытый канал сток/исток VT2 подключит конденсатор С6 параллельно конденсатору С5 – частота опорного генератора понизится. Устройство будет готово принимать команду «СТОП». Так как частота ГУН изменилась, то низкий уровень на выводе 8DA1 сменится на высокий и VT1 откроется. Теперь через открытый диод VD5 зашунтирован С7, а VD6 – закрыт, поэтому, если произносить команду «СТОП» для отключения нагрузки, заряжаться будет С8, что приведет к очередному переключению триггера DD1.1. В этой схеме также, как и в схеме на рисунок 1, элементы R7, С7, VD3 и R8, С8, VD4 предназначены для отсечения звуковых помех, частоты которых совпадают с частотами гласных звуков в командных словах. Диоды VD5 и VD6 обеспечивают правильный алгоритм работы, определяя очередность зарядки конденсаторов С7 и С8. Емкости конденсаторов С5 и С6 могут отличаться от указанных на схеме. Сначала, установив конденсатор С5 и подстраивая R4, добиваются реакции на команду «СВЕТ», затем подбирают емкость С6, подключая его параллельно к конденсатору С5, чтобы была реакция на команду «СТОП». Только после этого С6 включают в стоковую цепь транзистора VT2. На РИС.3 показана схема, реализующая управление лампой накаливания командами «ГОРИ» и «СТОП»:

Фактически схема совпадает со схемой на рисунке 2, но с некоторыми отличиями. В качестве коммутирующих элементов используются аналоговые ключи. В составе микросхемы К561КТ3 (или К1561КТ3) четыре таких ключа. В исходном состоянии ключ DD1.2 открыт, т.к. на выводе 2DD2.1 – лог.1, а ключ DD1.3 закрыт, так как на выводе 1DD2.1 – лог.0 и лампа накаливания EL1 не горит. Открытым каналом X-Y ключа DD1.2 подстроечный резистор R12 зашунтирован, тем самым исключен из цепи опорного генератора, поэтому частота ГУН определяется элементами R10, R14, С7 и настроена (резистором R14) на частоту звука «И» в командном слове «ГОРИ». При декодировании команды триггер DD2.1 переключается, поэтому ключ DD1.2 закрывается, а ключ DD1.3 открывается. Включается светодиод в твёрдотельном реле VS1 и лампа EL1 светится. Так как ключ DD1.2 теперь закрыт, то последовательно с резисторами R10 и R14 включается подстроечный резистор R12, значит, частота ГУН становится ниже. Резистором R12 её настраивают на частоту звука «О» в команде «СТОП». Резисторы R8 и R9 задают гистерезис переключательной характеристики вывода 8DA2, что способствует более чёткой отработке команд. Ключ DD1.1 работает как инвертор. Светодиод HL1 во время декодирования сигналов гаснет. Эта схема также проверялась на макетной плате и показала положительный результат работы:

Демонстрационный ролик показывает работу устройства, собранного по схеме на рисунке 3. Как и в предыдущих роликах, счёт имитирует звуковые помехи, даются другие команды с различными длительностями гласных звуков:

Видео 3

На рисунке 4 показан вариант схемы, которая принимает командное слово с тремя гласными буквами. В качестве примера выбрана команда «СИСТЕМА». Такая команда может использоваться как запускающая некий электронный блок или служить звуковым «ключом» к активации схемы с другими голосовыми командами. Может использоваться любое другое командное слово, например, «САНУЗЕЛ» для управления светом в ванной или туалетной комнатах квартиры:

Отсев звуковых помех происходит иначе, чем в предыдущих схемах — за счет последовательного переключения триггеров, причём следующий триггер фиксирует состояние предыдущего. Если на входе появляется звуковая помеха, то, чтобы повлиять на состояние нагрузки, частота помехи должна измениться два раза и совпасть с частотами гласных звуков в командном слове в нужной последовательности, а это, как представляется, совсем маловероятно. В этой схеме исходная частота ГУН переключается два раза, таким образом, тональный декодер DA2 работает с тремя опорными частотами. В исходном состоянии открыт ключ DD1.2 и частота определяется элементами С7, R11 и R12. Подстроечным резистором R12 она настроена на звук «И». После того, как будет произнесён и декодирован звук «И» в слоге «СИ», ключ DD1.2 закроется и откроется ключ DD1.3. Теперь частоту ГУН задают элементы С7, R11 и R15, которым настраивают реакцию устройства на звук «<Й”Э>» в слоге «СТЕ». После декодирования звука «<Й”Э>» ключ DD1.3 закроется, но откроется ключ DD1.4, значит, частоту опорного генератора будут определять элементы С7, R11 и R18, которым настраивают частоту ГУН на звук «А» в слоге «МА». После произношения и декодирования звука «А» ключ DD1.4 закрывается и декодер DA2 перестает работать – его опорный генератор выключен, т.к. закрыты все ключи. Схема вернётся в исходное состояние по сигналу RESET, который получит от исполнительного устройства после выполнения следующих команд или завершения рабочего цикла объекта управления.

Читать статью Что такое элементная база?

Если на входе появится помеха, соответствующая звуку «И», то триггер DD2.1 переключится – ключ DD1.2 закроется, а ключ DD1.3 откроется. Теперь частота помехи должна совпасть с частотой звука «<Й”Э>». Чудеса в нашей жизни случаются, но очень редко. Поэтому, через время Т=0,7*С8*R13 триггер DD2.1 вернётся в исходное состояние, так как работает в режиме одновибратора.

Если была команда и за звуком «И» последовал звук «<Й”Э>» (были произнесены слоги СИ-СТЕ), то через открытый диод VD5 переключенное состояние триггера DD2.1 зафиксируется – конденсатор С8 не сможет зарядиться до порога переключения триггера по входу «R». То же самое произойдет с триггером DD2.2, если вслед за звуком «<Й”Э>» декодируется звук «А» (будут произнесены все три слога СИ-СТЕ-МА) – его переключенное состояние зафиксируется открытым диодом VD7. Каждый основной выход предыдущего триггера соединён с входом данных (D) следующего, поэтому декодирование всего командного слова будет возможным только в случае, если гласные звуки следуют друг за другом в строгой (правильной) последовательности. Светодиоды, подключенные к схеме через усилители тока VT1 – VT3, индицируют декодирование гласных звуков. При декодировании последнего звука светодиод «А» остаётся включенным, пока на схему не поступит сигнал RESET от исполнительного устройства. При получении сигнала RESET светодиоды будут переключаться в обратной последовательности (от «А» до «И»), индицируя возвращение устройства (триггерных ячеек) в исходное состояние. На базе этой схемы практически опробована схема с командным словом «ВКЛЮЧИСЬ» и автоотключением нагрузки, показанная далее:

Схема декодирует гласные звуки <Й”У>и «И». Связь с вывода 4DD2.1 на вывод 12DD2.2 через VD5, обозначенная красным цветом, для демонстрации очерёдности срабатывания триггерных ячеек. Если это соединение убрать, то одновибратор DD2.1 через время Т=0,8 сек будет возвращаться в исходное состояние независимо от того, декодирована гласная «И» или нет. На тактовые входы «С» триггеров с выхода 8DA2 сигнал после декодирования подаётся не через инвертор, поэтому звук <Й”У>по времени не ограничен. Только после его окончания триггер DD2.1 переключится — на тактовый вход поступит высокий уровень напряжения. Длительность звука «И» ограничена временем Т=0,8сек. Цепочка R13-C9 задерживает появление высокого уровня напряжения на входе 9DD2.2 относительно появления его на входе 11DD2.2.

Ниже ролик показывает работу схемы на РИС.5. Из ролика видно, что после декодирования звука <Й”У>включается синий светодиод, индицирующий переключение первой триггерной ячейки, а лампа накаливания включается только после декодирования звука «И», т.е. после переключения второй триггерной ячейки, которая задаёт время работы нагрузки с помощью элементов R15 и C10. Возвращение в исходное состояние происходит в обратной последовательности: лампа выключается — одновибратор DD2.2 переключился в исходное состояние, и только потом гаснет светодиод – одновибратор DD2.1 переключился в исходное состояние. Подача других команд не приводит к включению лампы накаливания:

Видео 4

В устройствах на двух последних рисунках команды подаются обычным образом без растягивания гласных звуков в слогах. А в завершении темы для примера приведу ещё одну экспериментальную схемку. Эта схема как «единое» устройство не проверялась, но её отдельные узлы ранее были собраны и показали положительный результат в работе. Схема позволяет голосом включать, выключать и регулировать яркость лампы накаливания, то есть это устройство представляет собой голосовой диммер. Схема показана на рисунке 6:

Управляющая часть состоит из двух голосовых каналов, о работе которых рассказано в схемах на РИС.1 и РИС.2. Первый голосовой канал (DA2 и DD1.1) декодирует команду «СВЕТ» и управляет включением или выключением лампы EL1. Второй голосовой канал (DA3 и DD1.2) декодирует две команды – «ПУСК» и «СТОП», управляя диммированием. Симистором VS1 управляет микросхема DA5 типа К145АП2 в типовом включении. Микросхема имеет два входа управления – инверсный 3DA5 и неинверсный 4DA5. Функциональное назначение этих входов одинаково – первый кратковременный сигнал откроет симистор, и лампа включится, второй кратковременный сигнал – закроет симистор и лампа выключится. Если сигнал управления подавать длительное время, то микросхема вырабатывает импульсы, которые плавно отпирают или запирают симистор. Это приводит к изменению яркости лампы. Если выключить, а затем включить лампу, то яркость лампы будет такой же, как до выключения. Логика работы этих входов различна – вход 3DA5 управляется низким логическим уровнем, а вход 4DA5 – высоким. При декодировании команды «СВЕТ» триггер DD1.1 сформирует короткий импульс с низким уровнем напряжения, включающий лампу. При декодировании команды «ПУСК» триггер DD1.2 устанавливается в «единичное» состояние, поэтому на вход 4DA5 поступит высокий уровень напряжения и яркость лампы начнёт плавно изменяться. Если до этого момента яркость уменьшалась, то теперь она будет увеличиваться. Если до этого яркость увеличивалась, то теперь она начнёт уменьшаться. Если не подавать команду «СТОП» длительное время, то яркость лампы будет меняться от минимума до максимума (или от максимума до минимума) и обратно. После подачи команды «СТОП» и её декодировании, триггер DD1.2 вернётся в исходное «нулевое» состояние и регулирование прекратится — яркость лампы зафиксируется на выбранном уровне. Подав ещё раз команду «СВЕТ» можно выключить лампу – на входе 3DA5 триггер DD1.1 опять сформирует короткий импульс с низким логическим уровнем. Устройство получает питание через гасящий конденсатор С22 и однополупериодный диодно-стабилитронный выпрямитель VD9-VD10. Конденсатор С18 сглаживает пульсации. Микрофонный усилитель DA1 и тональные декодеры DA2, DA3 получают питание +5V от линейного стабилизатора DA4. Транзисторы VT1 и VT2 не только исполняют роль инверторов сигналов, а также согласуют логические уровни декодеров и триггеров. В приведенных экспериментальных схемах в качестве нагрузки использована лампа накаливания, но могут применяться различные другие объекты управления. Всё зависит от выдумки и области применения данных схем. Например, можно настроить тональный декодер на частоту гласных звуков «А» и «Ы», а коммутирующий элемент включить в цепь кнопки «TALK» говорящих часов. Тогда по команде «ЧАСЫ» часики подскажут текущее время. А в третьей, заключительной части, ознакомлю вас с ещё одной, практической схемой цветомузыки на LMC567.

Форум по обсуждению материала СХЕМА ДЛЯ ГОЛОСОВОГО УПРАВЛЕНИЯ

https://club.dns-shop.ru/blog/t-158-portativnyie-kolonki/44899-kak-rabotaet-golosovoi-poisk-i-kakoi-pomoschnik-luchshe-vseh/
https://radioskot.ru/publ/unch/skhema_dlja_golosovogo_upravlenija/6-1-0-914