Модуль лингвистической обработки




Прежде всего, текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка, а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях ис­пользуются спелчекеры (модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделе­ние введенного текста на слова и остальные последовательности символов.Все знаки пунктуации очень информатив­ны.

Для озвучивания цифр разра­батываются специальные подблоки. Преобразование цифр в по­следовательности слов является относительно легкой задачей, но цифры имеющие разное значение и функцию, про­износятся по-разному.

Лингвистический анализ

После процедуры нормализации каждому слову текста необходимо приписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря, создать его фо­немную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения - правила со­ответствия между буквами и фоне­мами (звуками), которые, однако могут требовать предварительной расстановки словесных ударений. В английском языке правила чте­ния очень нерегулярны, и задача данного блока для английского синтеза тем самым усложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов сокращений и аббревиатур возника­ют серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется воз­можным из-за большого объема словаря и контекстных изменении произношения одного и того же слова во фразе.

Кроме того, следует корректно рассматривать случаи графиче­ской омонимии: одна и та же последовательность буквенных сим­волов в различных контекстах по­рой представляет два различных слова/словоформы и читается по- разному (ср. выше приведенный

пример слова «замок»). Часто удается решить проблему неод­нозначности такого рода путем грамматического анализа, однако иногда помогает только исполь­зование более широкой семанти­ческой информации.

Для языков с достаточно регу­лярными правилами чтения од­ним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, пе­реводящих каждую букву/буква - сочетание в ту или иную фонему, то есть автоматический фонем­ный транскриптор. Однако чем больше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения систе­мы состоит в занесении нескольких тысяч наиболее употребительных исключений в словарь. Аль­тернативное подходу «слово - буква-фонема» решение предпо­лагает морфемный анализ слова и перевод в фонемы морфов (то есть значимых частей слова: при­ставок, корней, суффиксов и окон­чаний). Однако в связи с разными пограничными явлениями на сты­ках морфов разложение на эти элементы представляет собой зна­чительные трудности. В то же вре­мя для языков с богатой морфо­логией, например, для русского. словарь морфов был бы компакт­нее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического ана­лиза текста и задания его просодических характеристик. В английских системах синтеза морфем­ный анализ был реализован в сис­теме MiTalk, для которой процент ошибок транскриптора составляет 5%.

Особую проблему для данного этапа обработки текста образуют имена собственные.

Формирование просодических характеристик

К просодическим характеристи­кам высказывания относятся его тональные, акцентные и ритмиче­ские характеристики. Их физиче­скими аналогами являются часто­та основного тона, энергия и дли­тельность. Таким обра­зом, от системы синтеза следует ожидать примерно того же, то есть, что она сможет понимать имею­щийся у нее на входе текст, ис­пользуя методы искусственного интеллекта. Однако этот уровень развития компьютерной техноло­гии еще не достигнут, и большин­ство современных систем автома­тического синтеза стараются корректно синтезировать речь с эмоционально нейтральной интона­цией. Между тем, даже эта задача на сегодняшний день представля­ется очень сложной.

Методы озвучивания

Теперь скажу несколько слов о наиболее распространенных ме­тодах озвучивания, то есть о мето­дах получения информации, управляющей параметрами соз­даваемого звукового сигнала, и способах формирования самого звукового сигнала.

Самое широкое разделение стратегий, применяемых при оз­вучивании речи, - это разделе­ние на подходы, которые направ­лены на построение действующей модели рече-производящей сис­темы человека, и подходы, где ставится задача смоделировать акустический сигнал как таковой. Первый подход известен под на­званием артикуляторного синте­за. Второй подход представляется на сегодняшний день более про­стым, поэтому он гораздо лучше изучен и практически более успе­шен. Внутри него выделяется два основных направления - формантный синтез по правилам и компилятивный синтез.

Формантные синтезаторы ис­пользуют возбуждающий сигнал, который проходит через цифро­вой фильтр, построенный на не­скольких резонансах, похожих на резонансы голосового тракта. Разделение возбуждающего сиг­нала и передаточной функции го­лосового тракта составляет основу классической акустической тео­рии речеобразования.

Компилятивный синтез осуще­ствляется путем склейки нужных единиц компиляции из имеюще­гося инвентаря. На этом принципе построено множество систем, использующих разные типы единиц и различные методы составления инвентаря. В таких системах необ­ходимо применять обработку сиг­нала для приведения частоты ос­новного тона, энергии и длитель­ности единиц к тем, которыми должна характеризоваться синтезируемая речь. Кроме того, требу­ется, чтобы алгоритм обработки сигнала сглаживал разрывы в формантией (и спектральной в целом) структуре на границах сегментов. В системах компилятивного синтеза применяются два разных типа ал­горитмов обработки сигнала: LP (сокр. англ. Linear Prediction - линейное предсказание) и PSQLA (сокр. англ. Pitch Synchronous Overlap and Add). LP-синтез осно­ван в значительной степени на аку­стической теории речеобразования, в отличие от PSOLA-синтеза, который действует путем простого разбиения звуковой волны, состав­ляющей единицу компиляции, на временные окна и их преобразо­вания. Алгоритмы PSOLA позво­ляют добиваться хорошего сохра­нения естественности звучания при модификации исходной звуковой волны.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: