Модификация кепстра применяется для вычисления мел-частотных кепстральных коэффициентов (MFCC - Mel-frequency cepstral coefficients), широко используемых в системах распознавания в качестве векторов признаков РС. Признаки, построенные на основе MFCC, учитывают психоакустические принципы восприятия речи, поскольку используют мел-шкалу, связанную с критическими полосами слуха – теми полосами, на которые слуховой анализатор разделяет весь спектр частот.
Процедура получения MFCC коэффициентов на практике состоит в следующем: выборку значений кепстра вычисляют через выборку значений, полученных путем усреднения непараметрической оценки спектра треугольными весовыми функциями (рис.3.1).
Рис. 3.1 - Мел-шкала и усредняющие треугольные функции
Ширина весовых функций постоянна на нелинейной мел-шкале частот. За счет использования мэл-шкалы удается учесть нелинейную зависимость слухового восприятия от частоты речевого сигнала.
Алгоритм вычисления MFCC следующий.
1. Сигнал разбивается на L фреймов длиной
. Для n -го фрейма выполняется свертка сигнала с оконной функцией w (n) и вычисляется спектр Фурье
,
,
.
2. Для n -го фрейма на i -ой мел-частотной полосе () вычисляется логарифмированная энергия
где – треугольное окно (Барлета),
– четное число,
– границы частотных диапазонов i -ой полосы (в отсчетах),
P – количество мел-полос.
3. Для n -го фрейма вычисляется MFCC, используя обратное дискретное косинусное преобразование
![]() ![]() |
Наиболее используемые признаки для распознавания РС сведем в результирующую таблицу
На основе спектра Фурье (D N – ширина окна анализа) | |
Энергия спектра | ![]() |
нормированный энергетический спектр | ![]() ![]() |
кумулятивное отношение | ![]() ![]() ![]() |
На основе вейвлет-спектра (jmin, jmax, – минимальный и максимальный уровни разложения, N – длина сигнала) | |
мера контрастности | ![]() ![]() |
На основе кепстрального анализа | |
коэффициенты кепстра | ![]() ![]() |
мел-частотные кепстральные коэффициенты (MFCC) | ![]() ![]() ![]() ![]() ![]() |
На основе КЛП | |
коэффициенты предсказателя порядка p | ![]() ![]() |
нормированная автокорреляция сигнала | ![]() ![]() |
коэффициенты отражения КЛП | ![]() ![]() |
площади поперечных сечений акустической трубы | ![]() ![]() |
нормированная автокорреляция КЛП | ![]() ![]() |
нормированный сглаженный энергетический спектр КЛП | ![]() ![]() ![]() |
кепстр импульсной характеристики | ![]() ![]() ![]() |
Выбор характеристик РС, используемых при распознавании, существенно влияет на эффективность распознавания и зависит от способа представления сигнала.
Лекция 5
Тема. Методы предварительной обработки речевых сигналов
На лекции будет рассмотрено:
Выделение речи из звукового сигнала (VAD-алгоритмы).
Методы сегментации речевого сигнала