Модификация кепстра применяется для вычисления мел-частотных кепстральных коэффициентов (MFCC - Mel-frequency cepstral coefficients), широко используемых в системах распознавания в качестве векторов признаков РС. Признаки, построенные на основе MFCC, учитывают психоакустические принципы восприятия речи, поскольку используют мел-шкалу, связанную с критическими полосами слуха – теми полосами, на которые слуховой анализатор разделяет весь спектр частот.
Процедура получения MFCC коэффициентов на практике состоит в следующем: выборку значений кепстра вычисляют через выборку значений, полученных путем усреднения непараметрической оценки спектра треугольными весовыми функциями (рис.3.1).
Рис. 3.1 - Мел-шкала и усредняющие треугольные функции
Ширина весовых функций постоянна на нелинейной мел-шкале частот. За счет использования мэл-шкалы удается учесть нелинейную зависимость слухового восприятия от частоты речевого сигнала.
Алгоритм вычисления MFCC следующий.
1. Сигнал разбивается на L фреймов длиной . Для n -го фрейма выполняется свертка сигнала с оконной функцией w (n) и вычисляется спектр Фурье
, ,
.
2. Для n -го фрейма на i -ой мел-частотной полосе () вычисляется логарифмированная энергия
где – треугольное окно (Барлета),
– четное число,
– границы частотных диапазонов i -ой полосы (в отсчетах),
P – количество мел-полос.
3. Для n -го фрейма вычисляется MFCC, используя обратное дискретное косинусное преобразование
, . |
Наиболее используемые признаки для распознавания РС сведем в результирующую таблицу
На основе спектра Фурье (D N – ширина окна анализа) | |
Энергия спектра | (представляет собой скалярную величину) |
нормированный энергетический спектр | |
кумулятивное отношение | , , , E - полная энергия сигнала |
На основе вейвлет-спектра (jmin, jmax, – минимальный и максимальный уровни разложения, N – длина сигнала) | |
мера контрастности | , |
На основе кепстрального анализа | |
коэффициенты кепстра | , , где: D N – ширина окна анализа, Х – коэффициент спектра Фурье |
мел-частотные кепстральные коэффициенты (MFCC) | , , где: L – количество мел-полос, w (k) – оконная функция Бартлета, – границы l -той полосы, – четное число. |
На основе КЛП | |
коэффициенты предсказателя порядка p | , |
нормированная автокорреляция сигнала | , |
коэффициенты отражения КЛП | , |
площади поперечных сечений акустической трубы | , A 1=1, |
нормированная автокорреляция КЛП | , |
нормированный сглаженный энергетический спектр КЛП | , , |
кепстр импульсной характеристики | , , |
Выбор характеристик РС, используемых при распознавании, существенно влияет на эффективность распознавания и зависит от способа представления сигнала.
Лекция 5
Тема. Методы предварительной обработки речевых сигналов
На лекции будет рассмотрено:
Выделение речи из звукового сигнала (VAD-алгоритмы).
Методы сегментации речевого сигнала