Наиболее распространенными системами синтеза речи на сегодня, очевидно, являются системы, поставляемые в комплекте со звуковыми платами. Если ваш компьютер оснащен какой-либо из них, существует значительная вероятность того, что на нем установлена система синтеза речи - увы, не русской, а английской речи, точнее, ее американского варианта. К большинству оригинальных звуковых плат Sound Blaster прилагается система Creative Text- Assist, а вместе со звуковыми картами других производителей часто поставляется программа Monologue компании FirsfByte.
TexAssist представляет собой реализацию формантного синтезатора по правилам и базируется на системе DECTalk, разработанной корпорацией Digital Equipment при участии известного американского фонетиста Денниса Клатта (к сожалению, рано ушедшего из жизни). DECTalk до сих пор остается своего рода стандартом качества для синтеза речи американского варианта английского. Компания Creative Technologies предлагает разработчикам использовать TextAssist в своих программах.
Поддерживаемые операционные системы - MS Windows и Windows 95; для Windows NT существует версия системы DECTalk. изначально создававшейся для Digital Unix. Новая версия TextAsslst, объявленная фирмой Associative Computing, Inc. и разработанная с использованием технологий DECtalll и Creative, является в то же время многоязычной системой синтеза, поддерживая английский, немецкий, испанский и французский языки. Это обеспечивается прежде всего использованием соответствующих лингвистических модулей. разработчик которых- фирма Lemout & Hausple Speech Produсts признанный лидер в поддержке многоязычных речевых технологий. В новой версии будет встроенный редактор словаря, а также специализированное устройство TextReader с кнопочным управлением работой синтезатора в разных режима), чтения текста.
|
Программа Monologue, предназначенная для озвучивания текста, находящегося в буфере обмена MS Windows, использует систему ProVoice. ProVoice- компилятивный синтезатор с использованием оптимального выбора режима компрессии речи и сохранения пограничных участков между звуками, разновидность TD-PSOLA. Рассчитан на американский и британский английский, немецкий, французский, латиноамериканскую разновидность испанского и итальянский языки. Инвентарь сегментов компиляции - смешанной размерности: сегменты- фонемы или аллофоны. Компания FirstByte позиционирует систему ProVoice и программные продукты, основанные на ней, как приложения с низким потреба пением процессорного времени. FirstByte также предлагает рассчитанную на мощные компьютеры систему артикуляторного синтеза PrimoVox для использования в приложениях телефонии. Для разработчиков: Monologue Win32 поддерживает спецификацию MicrosoftSAPI.
Синтезатор русской речи
В качестве примера рассмотрим разработку «Говорящая мышь» клуба голосовых технологий научного парка МГУ.
В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам.Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил - возможность формирования естественного интонационно-просодического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, подающие пока менее естественное озвучивание текста. Это, прежде всего параметрический (формантный'' синтез речи по правилам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акустика-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем.
|
Инструментарий синтеза русской речи
Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вспух смешанные русско-английские тексты. Инструментарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синтеза, словарь ударений русского языка, модуль правил произнесения английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступает звуковой файл в формате WAV или VOX, записываемый в память или на жесткий диск.
Что дальше?
А дальше... С одной стороны, нужно не забывать, что речь - эта все-таки одно из проявлений высшей нервной деятельности человека, и потому вряд пи в ближайшие несколько лет стоит ожидать появления систем распознавания речи по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все меняется очень быстро, и не известие, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль...
Думаю не будет секретом то, что любой находящийся в этой аудитории человек если он болен машиной, если он фанатик врятли воспринимает её как неодушевлённый предмет, как мебель. Скорее в кучку железа под таинственным названием компьютер мы вкладываем душу,вкладываем себя посредством непрерывного общения в прямом смысле этого слова. Лично я не раз замечала за собою безсознательные вещи: набивая текст, составляя программу,инсталируя приложения я регулярно бросаю компьютеру нелестные отзывы о ней же.Типа: Чего ты еще хочешь Захлопнись, или Ну и кретин же ты. Наивно пологая что когда нибудь она меня всё-таки услышит и на реплику: «Какой же ты балбес» ласково произнесет питание компьютера отключено, потеря всех не сохраненных данных. Именно по-этому темой своего реферата я выбрала близкую мне: Речевые технологии.Хотя я назвала бы ее более лирично: Узнай меня по голосу. В своем выступлении я хотела бы осветить не только проблемы и перспективы развития речевого интерфейса, но по рассуждать о том нужен ли он вообще и ой как не скоро окупят надежды потери времени и денег.
|