Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием




При обработке речевого сигнала (РС) в системах распознавания используют упрощенную модель, основанную на предположении, что РС – результат свертки сигнала возбуждения последовательностью импульсов либо случайным шумом и импульсной характеристики линейного фильтра с медленно изменяющимися параметрами, представляющего собой голосовой тракт (рис. 3.1).

Рис. 3.1. Структурная схема упрощенной модели речеобразования

 

Такая задача разделения компонент, участвующих в операции свертки, называется гомоморфной обработкой сигнала или кепстральным анализом.

 

Гомоморфная система имеет следующее свойство суперпозиции:

Процесс разделения двух компонентов сигнала называют разверткой и описывают так:

s (n) = u (nh (n),

где u (n) — возбуждающий сигнал; h (n) — импульсная характеристика линейного фильтра; Å — развертка. Область частот этого процесса:

S (k) =U (k) K (k),

где K (k) – передаточная функция линейного фильтра. После логарифмирования обеих частей равенства возбуждение и голосовой тракт, наложенные друг на друга, могут быть разделены.

Кепстр представляет собой обратное Фурье-преобразование логарифма мощности сигнала:

, .

Кепстральные коэффициенты чувствительны к шумам и искажениям сигнала. В связи с чем в системах распознавания используют методы сглаживания спектральных характеристик сигнала. Одним из самых широко используемых методов сглаживания является метод КЛП.

В этом методе спектр моделируется как авторегрессионый процесс и передаточная функция голосового тракта представляется в виде:

,

где G – коэффициент усиления модели,

– коэффициенты линейного предсказания,

p – порядок предсказателя.

Линейный предсказатель с коэффициентами определяется как система, на выходе которой выполняется равенство

.

Задача анализа на основе КЛП заключается в непосредственном определении параметров по РС с целью получения оценок его спектральных свойств. Вследствие изменения свойств РС во времени коэффициенты предсказания оцениваются на коротких фреймах.

Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать средний квадрат погрешности предсказания

,

что приводит к системе из p линейных уравнений с p неизвестными. Для подсчета коэффициентов предсказания используется автокорреляционный метод, который позволяет предсказать коэффициенты с помощью рекурсии Левинсона-Дарбина на основе автокорреляционной функции

, . (

Используемые в методе коэффициенты отражения (2.24)

, ,

где j -й коэффициент и - погрешность предсказания для линейного предсказателя порядка i, однозначно определяют форму кусочно-постоянной акустической трубы, содержащей (p +1) цилиндрическую секцию фиксированной длины. Процессы в этой трубе – распространение плоской акустической волны, а площади A поперечных сечений соседних секций связаны коэффициентами отражения

, A 1=1, . (

С помощью коэффициентов КЛП, автокорреляционной функции и автокорреляционной функции коэффициентов КЛП

, , =1 (

Сглаженный энергетический спектр, который используется в системах распознавания в качестве признаков РС, вычисляется по формуле

, . (

Другим представлением сигнала является кепстр импульсной характеристики системы линейного предсказания, который получается с помощью рекурсивных соотношений

, ĥ (0)= a 0, .

Альтернативой методу КЛП являются коэффициенты перцепционного линейного предсказания PLP. Техника использования PLP-параметризации основана на психоакустических концепциях при оценивании спектра: спектральный анализ в критических полосах частот; кривые равной громкости; нелинейная связь между интенсивностью и воспринимаемой громкостью звука. Извлечение PLP коэффициентов основано на стандартном мэл-частотном анализе спектра Фурье с помощью гребенки фильтров, применяемых при вычислении MFCC.

Спектр Фурье предварительно вычисляется по N – отсчетам сигнала s1,…, sN. Коэффициенты, полученные на выходе гребенки фильтров, взвешиваются кривой равной громкости, которая задана эмпирически в виде:

где ωj – частота j-го треугольного окна мел-шкалы, и затем сжимаются путём извлечения кубического корня .

Далее путём расчета обратного преобразования Фурье на основе значений М"j вычисляют коэффициенты линейного предсказания КЛП по методу, описанному выше.


 

Лекция 4

Тема. Методы формирования наборов признаков распознавания речевых сигналов.

В лекции будет рассмотрено:

Широкая фонетическая классификация звуков речи.

Психоакустические принципы восприятия речи.

Признаки распознавания на основе АВП.

Спектральные признаки распознавания.

Признаки распознавания речевых сигналов на основе кодирования с линейным предсказанием.

Мел-частотные кепстральные коэффициенты (MFCC).

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-09-06 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: