Метод нелинейного растяжения-сжатия оси времени

Для учёта нелинейного изменения темпа произнесения команд человеком проводят временную нормализацию речевых единиц с помощью метода нелинейного растяжения-сжатия оси времени – DTW.

В данном методе словарь команд W представлен множеством эталонов E_i, каждый из которых является последовательностью векторов признаков e _j

, E_i= e ₁, e ₂,... e_j,... e_n,

Обучение системы состоит в запоминании для каждой команды эталона в виде последовательности векторов признаков, построенных по соответствующему команде РС.

Распознавание состоит в вычислении меры расхождения между распознаваемым сигналом и эталонами словаря команд и определении номера эталона, чья мера расхождения к распознаваемому сигналу будет минимальной. Вычисление меры расхождения между текущим эталоном E ираспознаваемым сигналом

R= r ₁, r ₂,... r_j,... r_m,

представленным последовательностью векторов признаков r_j, производят путём вычисления матрицы расстояний D между векторами эталона e_i и распознаваемого сигнала r_j

D = , d_ij = d (e_i, r_j).

Далее, по матрице D вычисляют элементы DTW-матрицы K

K = ,

по рекуррентным формулам

k ₁₁ = d ₁₁ k _{1 j} = d _{1 j} + k _{1(j -1)}, j Î[2; m ]

k_i ₁ = d_i ₁ + k _{(i -1)1}, i Î[2; n ]

k_ij = d_ij + min(k _{(i- 1)(j -1)}, k _{(i- 1) j}, k_i _{(j -1)}), i, j Î[2; n ]

Меру расхождения между эталоном E исигналом R определяют как:

d(E,R)= k_nm

Кроме определения меры расхождения между эталоном E исигналом R, полученная DTW-матрица K, позволяетопределить множество M пар номеров (p, q) соответствующих друг другу векторов e_i и r_j:

где H –количество соответствующих друг другу пар векторов. Эти пары определяются итеративно по формулам:

p_H = n, q_H = m,

где P_k ={(p ′ ,q ′): p_k -1£ p ′£ p_k, q -1£ q ′£ q_k, p ′¹ i ∩ q ¢¹ j })

p ₁ = 1, q ₁ = 1

Как следует из этих формул, определение пар номеров соответствующих векторов возможно после вычисления всех элементов матрицы K.

Результатом распознавания считают номер эталона, мера расхождения которого к распознаваемому сигналу будет минимальной:

res =

Метод DTW являлся доминирующей парадигмой для распознавания изолированных слов с малым словарём распознавания. DTW в своей области применения давал очень хорошие результаты и фактически превосходил скрытые модели Маркова. От DTW по существу отказались из-за следующих проблем: введение модели языка не было естественным; задача построения синтетических эталонов осталась нерешенной; не было найдено единой статистическая формулировки распознавания, включающей все модули распознавания речи. Известно также о других проблемах метода распознавания по алгоритму DTW. Существует также проблема большого разброса длин эталонов: если длина одного из эталонных сигналов значительно меньше длин остальных, мера расхождения от него до распознаваемого сигнала будет минимальной. Следующая проблема метода формулируется так: «корректное временное выравнивание двух произнесений различных слов не является чётко определённой лингвистической концепцией». Кроме того, алгоритм DTW имеет тенденцию к пропуску отличающихся элементов и учёту сходных, что при оотсутствиии ограничений на длительность соответствующих друг другу элементов речевого сигнала снижает значимость полученной меры расхождения.

Проблему отсутствия ограничений на длительность соответствующих друг другу элементов речевого сигнала и большого разброса длин эталонов решают путём искусственных ограничений на область индексов элементов, участвующих в формировании меры расхождения (могут принадлежать пути выравнивания), и использования различных способов взвешивания меры расхождения. Сочетание предлагаемых ограничений на путь выравнивания и способов взвешивания меры расхождения порождает множество модификаций метода DTW. Данных о модификации DTW, обеспечивающей наилучшие показатели распознавания в литературе обнаружить не удалось.

Этап обучения требует хотя бы однократного произнесения каждой команды словаря. Поэтому метод пригоден только для распознавания команд малого словаря в силу больших затрат времени на создание словаря команд, памяти на его хранение и значительных вычислительных и временных затрат на распознавание.

Для сокращения памяти на хранение словаря команд, вычислительных и временных затрат на распознавание применяют технику квантования векторов. Она состоит в кластеризации множества эталонных векторов признаков с последующей заменой этих векторов признаков центроидами кластеров.

Но, это не сокращает временные затраты на создание словаря команд, т.к. для метода DTW не решена проблема представления словаря команд на основе более мелких структурных единиц, эталоны которых можно было бы использовать при распознавании.

Такой более мелкой единицей может выступать фонема – группа звуков, обладающих определенной артикуляторно-слуховой общностью и функционально друг другу не противопоставленных, т.е. не встречающихся в одинаковом положении в фонетической структуре слова. С одной стороны, РС можно поставить в соответствие последовательность фонем, с другой стороны написанию некоторого слова или последовательности слитно произносимых слов можно поставить в соответствие фонетическую транскрипцию.

Метод нелинейного растяжения-сжатия оси времени

Поиск по сайту