Модификация кепстра применяется для вычисления мел-частотных кепстральных коэффициентов (MFCC - Mel-frequency cepstral coefficients), широко используемых в системах распознавания в качестве векторов признаков РС. Признаки, построенные на основе MFCC, учитывают психоакустические принципы восприятия речи, поскольку используют мел-шкалу, связанную с критическими полосами слуха – теми полосами, на которые слуховой анализатор разделяет весь спектр частот.
Процедура получения MFCC коэффициентов на практике состоит в следующем: выборку значений кепстра вычисляют через выборку значений, полученных путем усреднения непараметрической оценки спектра треугольными весовыми функциями (рис.3.1).

Рис. 3.1 - Мел-шкала и усредняющие треугольные функции
Ширина весовых функций постоянна на нелинейной мел-шкале частот. За счет использования мэл-шкалы удается учесть нелинейную зависимость слухового восприятия от частоты речевого сигнала.
Алгоритм вычисления MFCC следующий.
1. Сигнал
разбивается на L фреймов длиной
. Для n -го фрейма выполняется свертка сигнала с оконной функцией w (n) и вычисляется спектр Фурье
,
,
.
2. Для n -го фрейма на i -ой мел-частотной полосе (
) вычисляется логарифмированная энергия

где
– треугольное окно (Барлета),
– четное число,
– границы частотных диапазонов i -ой полосы (в отсчетах),
P – количество мел-полос.
3. Для n -го фрейма вычисляется MFCC, используя обратное дискретное косинусное преобразование
, .
|
Наиболее используемые признаки для распознавания РС сведем в результирующую таблицу
| На основе спектра Фурье (D N – ширина окна анализа) | |
| Энергия спектра | (представляет собой скалярную величину)
|
| нормированный энергетический спектр |
|
| кумулятивное отношение | , ,
, E - полная энергия сигнала
|
| На основе вейвлет-спектра (jmin, jmax, – минимальный и максимальный уровни разложения, N – длина сигнала) | |
| мера контрастности | ,
|
| На основе кепстрального анализа | |
| коэффициенты кепстра | , ,
где: D N – ширина окна анализа, Х – коэффициент спектра Фурье
|
| мел-частотные кепстральные коэффициенты (MFCC) | , ,
где: L – количество мел-полос, w (k) – оконная функция Бартлета,
– границы l -той полосы, – четное число.
|
| На основе КЛП | |
| коэффициенты предсказателя порядка p | ,
|
| нормированная автокорреляция сигнала | ,
|
| коэффициенты отражения КЛП | ,
|
| площади поперечных сечений акустической трубы | , A 1=1,
|
| нормированная автокорреляция КЛП | ,
|
| нормированный сглаженный энергетический спектр КЛП | , ,
|
| кепстр импульсной характеристики | , ,
|
Выбор характеристик РС, используемых при распознавании, существенно влияет на эффективность распознавания и зависит от способа представления сигнала.
Лекция 5
Тема. Методы предварительной обработки речевых сигналов
На лекции будет рассмотрено:
Выделение речи из звукового сигнала (VAD-алгоритмы).
Методы сегментации речевого сигнала
,
.
(представляет собой скалярную величину)
,
, E - полная энергия сигнала
,
,
,
где: D N – ширина окна анализа, Х – коэффициент спектра Фурье
,
,
где: L – количество мел-полос, w (k) – оконная функция Бартлета,
– границы l -той полосы,
– четное число.
,
,
,
, A 1=1,
,
,
,
,
,