Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование речи, Белорусская наука, 2008.

Средства синтеза речи осуществляют формирование корректного текста по его смысловой структуре.

К настоящему времени системы синтеза речи достигли определённого совершенства и уже используются в ряде практических приложений, в том числе, при создании аудиокниг. Однако комфортность восприятия синтезированной речи в реальных условиях, в особенности в этом конкретном её применении,остаётся ещё далекой от удовлетворительной.

Способы синтеза речи

1. Компилятивный синтез

При этом способе сообщение, озвучиваемое пользователю, составляется из заранее подготовленных речевых фрагментов. Содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основной минус компилятивного синтеза состоит в том, что объёмы памяти для хранения словаря недостаточны. По этой причине используются различные методы сжатия либо кодирования речевого сигнала.

Этот способ синтеза имеет широкое практическое применение. Различные устройства от военных самолетов до бытовых устройств оснащаются системами речевого ответа. Также он находит всё большее применение в повседневной жизни, например, в справочных службах.

2. Физический синтез

Для физического синтеза реализуется физическая модель артикуляторного тракта, которая управляется последовательностью символов, соответствующих буквам синтезируемого текста, с добавлением специальных символов, отмечающих выделенные речевые фрагменты.

3. Пофонемный синтез

Этот способ основан на компиляции из заранее подготовленных единиц – фонем или субфонемных элементов. Этот подход сочетает компактность цифровых методов обработки с гибкостью управления основными параметрами речи. Процесс кодирования необходимого словаря здесь заменен компиляцией произвольных сообщений из набора заранее закодированных элементов речи.

Отличительной особенностью описываемой модели мультиволнового синтеза является использование в качестве элементов компиляции речи отрезков естественной речевой волны, соотносимой с элементами различной фонетической длинны: аллофонами (реализация фонемы, её вариант, обусловленный конкретным фонетическим окружением), диаллофонами и аллослогами.

Структура системы синтеза речи

Структура синтезатора речи по тексту

В описываемой модели синтеза речи из текста аккумулированы теоретико-экспериментальные сведения о специфике лингвистической обработки текстов, фонетической и просодической структуре русской речи, артикуляторно-акустических явлений процесса речеобразования.

Орфографический текст документа поступает на вход синтезатора и далее подвергается последовательной обработке рядом специализированных процессоров в соответствии с общей структурой синтезатора речи по тексту.

Синтезатор включает четыре основных модуля:

· текстовый процессор

· просодический процессор

· фонетический процессор

· акустический процессор
Каждый из этих модулей поддерживается наборами соответствующих баз данных и правил.

Текстовый процессор

Главная функция текстового процессора - предварительная обработка входного текста, а также морфологическая и акцентная маркировка слов текста.

Текстовый процессор содержит два основных блока:

1. Блок предварительной обработки входного текста;

Основной задачей этого блока является нормализация текста, т.е. приведение его к такому виду, когда текст состоит из последовательности слов русского языка, т.к. на вход системы синтеза речи могут поступать тексты, взятые из разных источников и зачастую содержащие объекты (числа, аббревиатуры, иностранные слова и т.д.) и символы, непригодные для синтеза речи.

Блок морфологической и акцентной маркировки слов текста.

Этот блок осуществляет маркировку каждого слова входного текста, необходимую для адекватного синтеза звуков и интонации речи. Для каждой такой маркировки используется грамматический словарь, в котором каждое слово снабжено пометой позиции ударения.

Эти блоки поддерживаются соответствующими базами данных, словарями и правилами.

Просодический процессор

Задачи этого процессора:

· членение текста на предложения, пунктуационные и/или лексические синтагмы (самостоятельные в интонационном смысле части предложения или всё предложение);

· членение на синтаксические синтагмы и их разметка на акцентные единицы;

· маркировка типов интонаций синтагм.

Это необходимо для автоматической процедуры формирования текущих контуров мелодии, силы звука, фонемной длительности и длительности пауз на основе анализа определенных свойств входного текста.

Установка границ синтагм влияет на передачу интонационных характеристик при синтезе речи, а также на передачу смыслового содержания. Процесс синтагматического членения должен удовлетворять решению двух основных задач: установить границы синтагм в тех местах, где они обязательно должны присутствовать, и не устанавливать границу синтагмы там, где она может нарушить смысловое восприятие речи.

Для установки границ синтагм используются определённые правила синтагматического членения, базирующиеся на пунктуационном, морфологическом и синтаксическом анализе текста, а также на статистическом анализе синтагматического членения в естественной речи.

Фонетический процессор

Задачей этого процессора: преобразование орфографического текста в последовательность аллофонов, которая используется на этапе акустической обработки при синтезе речевого сигнала. Процессор генерирует позиционные и комбинаторные аллофоны фонем.

В фонетическом процессоре заложены правила преобразования орфографического текста в последовательность фонем (преобразование буква-фонема) и правила преобразования последовательности фонем в аллофонную последовательность (преобразование фонема-аллофон).

Акустический процессор

Акустический процессор содержит два блока:

1. Блок «Синтез акустико-просодических характеристик речевого сигнала»

Задачей этого блока является преобразование просодически размеченной последовательности аллофонов синтагмы в последовательность их звуковых волн со значениями частоты основного тона, амплитуды и длительности, задаваемыми базами данных просодических портретов.

2. Блок «Синтез акустико-фонетических характеристик речевого сигнала»

Во этом блоке осуществляется синтез речевого сигнала путём выбора из баз данных звуковых волн мультифонов (единичных аллофонов, диаллофонов, аллослогов), соответствующих входному аллофонному тексту, и их конкатенации (соединения).

В акустическом процессоре должны быть изначально заложены базы данных просодических портретов и звуковых волн мультифонов.

Недостатки системы синтеза

Основной сложностью при создании процессоров обработки текста для систем синтеза русской речи является значительная гибкость языка. Каждый из представленных выше этапов сопряжен с определенными сложностями, связанных с тем, что в русском языке не существует строгих правил как построения фраз, так и произношения. В результате этого в большом количестве фраз допускаются разночтение, разное произношение и интонация. Устранить это может только анализ всего предложения, а иногда и всего текста.

Человек при чтении текстов на основе предшествующего содержания и своего опыта легко восстанавливает пропущенные в тексте слова, определяет ударения, части речи слов и т.д. Однако автоматическая система на настоящем этапе развития сделать это не в состоянии, поскольку как уже было упомянуто выше, в русском языке нет строгих правил построения текста, и поэтому жестко алгоритмизировать этапы обработки текста не удается. Использование базы данных, в которой содержатся различные варианты употребления слов и словосочетаний так же не всегда решают проблему, поскольку ни одна база данных не способна охватить все богатство языка. Кроме этого, в некоторых случаях правильность произношения определяется только на основе анализа и понимания смысла синтезируемого текста.

Будущее синтеза речи

В настоящее время рано говорить о перспективном будущем на ближайшие десятилетия для синтеза речи, так как звучание все еще напоминает больше всего речь роботов, а местами это еще и трудно понимаемая речь. Что мы точно можем безошибочно определять, так это то что говорит ли синтезатор речи мужским или женским голосом, а тонкости присущие человеческому голосу мы порой все еще не различаем. Поэтому технология разработки, частично отвернулась от фактического построения синтеза речевых сигналов, но все также продолжает использовать простейшую сегментацию записи голоса.

Список литературы

1. Лекции Харламова А.А. по дисциплине “Современные информационные и коммуникационные технологии”

Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование речи, Белорусская наука, 2008.

3. Сорокин В.Н. Синтез речи

Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование речи, Белорусская наука, 2008.

Поиск по сайту