Главные трудности фонемного подхода




Темп речи варьируется в широ­ких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимают­ся не пропо-рционально. Напри­мер, гласные изменяются значи­тельно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых зву­ков есть свои закономерности. (По­лугласные - это звуки при гене­рации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в оби­ходе считаются согласными. На­пример, так обычно звучат «м», «н», «л» и «р». Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например «б», «л», «д», «т». Образование щелевых звуков свя­зано с шипением и прочими эф­фектами турбулентности в органах артикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. В качестве примеров для простоты намеренно не приведе­ны звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-вре­менные распределения энергии. Это справедливо даже для дваж­ды подряд произнесенного сло­ва. Намного сильнее этот эффект проявляется при сравнении спек­трограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарной сетью образцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи и четко­сти произношения является при­чиной коартикуляционной нестационарности, означающей изме­нение взаимовлияния соседних звуков от образца к образцу. Проблема кластеризации слит­ной речи. Из непрерывного рече­вого потока довольно непросто вы­делить какие-либо речевые еди­ницы. Многие звуки «слипаются» либо имеют нечеткие границы.

Многообразие видов

Существующие системы распо­знавания речи можно классифи­цировать по разным признакам.

По назначению:

1) командные системы

2) системы диктовки текста.

По потребительским качествам:

1) диктороориентированные (тре­нируемые на конкретного диктора)

2) дикторонезависимые (рискую предложить термин «омнивойс»)

3) распознающие отдельные слова

4) распознающие слитную речь.

По механизмам функциониро­вания:

1) простейшие (корреляционные) детекторы

2) экспертные системы с различ­ным способом формирования и обработки базы знаний

3) вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Довольно трудно выбрать удоб­ный показатель качества работы системы распознавания речи. Наи­более просто такой показатель ка­чества вводится для командных систем. При тестировании в слу­чайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитыва­ется количество правильно распознанных команд и делится на об­щее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в задан­ной при эксперименте акустиче­ской обстановке. Для систем дик­товки похожий показатель качест­ва может вычисляться при диктов­ке некоторого тестового текста. Очевидно, что это не всегда удоб­ный показатель качества. В дейст­вительности мы сталкиваемся с са­мыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тре­нировкой системы?

В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы осно­вано на гипотезе о том, что спек­трально-временные характеристи­ки команд-слов для отдельно взя­того диктора изменяются слабо. Акустическая модель такой систе­мы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и мо­жет служить типичным примером изобретательского подхода. В са­мом простом случае команда ло­кализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить огра­ниченное число команд плюс еще одну, которая означает все осталь­ные неизвестные системе слова. Как правило, лингвистическая мо­дель строится как алгоритм поиска максимума функционала от вход­ного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размер­ности пространства описания и его метрики может широко варьиро­ваться разработчиком.

Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В на­стоящее время на рынке представ­лено множество коммерческих сис­тем распознавания речи с гораздо большими возможностями:

ü Voice Type Dictation, Voice Pilot, ViaVoice от IBM

ü Voice Assist Creative от Techonology

ü Listen for Windows от Verbex и многие другие.

Некоторые из них (например, ViaVoice) спо­собны, как заявляют разработчи­ки, вводить слитную речь.

Лингвистические блоки совре­менных систем реализуют слож­ную модель естественного языка. Иногда она основана на математи­ческом аппарате скрытых цепей Маркова, иногда использует по­следние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых сис­тем пытается моделировать естест­венный слуховой аппарат.

Речевой вывод.

Речевой вывод информации из компьютера- проблема не ме­нее важная, чем речевой ввод. Это вторая часть речевого интерфей­са, без которой разговор с компь­ютером не может состояться. Я имею в виду прочтение вслух тек­стовой информации, а не проиг­рывание заранее записанных зву­ковых файлов. То есть выдачу в речевой форме заранее не из­вестной информации.

Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, анало­гичный тому, какой мы имеем бла­годаря монитору. Конечно, труд­новато было бы передать рисунок голосом. Но вот услышать элек­тронную почту или результат по­иска в базе данных в ряде случаев было бы довольно удобно, осо­бенно если в это время взгляд за­нят чем-либо другим. Например, придя утром на работу в офис, вы могли бы поправлять галстуку зер­кала или возвращать на место при­ческу (может быть, даже подкра­шивать ногти) в то время как ком­пьютер будет читать вслух по­следние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше вни­мание сообщением, что прибли­жается время заранее назначен­ной деловой встречи.

С точки зрения пользователя, наиболее разумное решение про­блемы синтеза речи - это вклю­чение речевых функций (в перс­пективе - многоязычных, с воз­можностями перевода) в состав операционной системы. Компьютеры будут озву­чивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т. д. Важное замечанием пользо­ватель должен иметь достаточные возможности по настройке голоса компьютера, в частности, при же­лании, суметь выключить голос совсем.

Вышеупомянутые функции и сейчас были бы не лишними для лиц, имеющих проблемы со зре­нием. Для всех остальных они соз­дадут новое измерение удобства пользования компьютером и зна­чительно снизят нагрузку на нерв­ную систему и на зрение. По моему мнению, сейчас не стоит во­прос, нужны синтезаторы речи в персональных компьютерах или нет. Вопрос в другом - когда они будут установлены на каждом ком­пьютере. Осталось ждать, может быть, год или два.

Методы синтеза речи

Теперь, после оптимистического описания ближайшего будущего давайте обратимся собственно к тех­нологии синтеза речи. Рассмотрим какой-нибудь хотя бы минимально осмысленный текст, например, эту статью. Текст состоит из слов, раз­деленных пробелами и знаками препинания. Произнесение слов зависит от их расположения в пред­ложении, а интонация фразы - от знаков препинания. Более того, довольно часто и от типа приме­няемой грамматической конструк­ции: в ряде случаев при произне­сении текста слышится явная пауза, хотя какие-либо знаки препи­нания отсутствуют. Наконец, про­изнесение зависит и от смысла сло­ва! Сравните, например, выбор од­ного из вариантов за'мок» или «замо'к» для одного и того же слова «замок».

Обобщенная функциональная система синтеза

Структура идеализированной сис­темы автоматического синтеза ре­чи может быть представлена блок- схемой, изображенной на рис.1.

 
 


Ввод текста

 


Блоки лингвистической Определение Исправление

Обработки языка текста ошибок

Подготовка текста входного текста

к озвучиванию

 

Нормализация текста

 

 
 


Лингвистический анализ

 

Формирование Фонемный транскриптор

Просодических Приведение фонем

характеристик к единицам синтеза

 


Озвучивание Формирование управляющей информации

 

Получение звукового сигнала

 

 

Звук

Она не описывает ни одну из суще­ствующих реально систем, но со­держит компоненты, которые мож­но обнаружить во многих системах.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: