Сегментация на основе выделения квазипериодов

Пусть заданный речевой сигнал оцифрован с частотой дискретизации 20050 Гц, разрядность 8-битных. Тогда его можно представить последовательностью значений

Разобьем сигнал на квазипериоды. Рассмотрим функцию.

Найдем ее минимум по всем k таким, что Min ≤ k ≤ Max

Здесь Min и Max - числа, которые заранее определяются в соответствии с высотой голоса диктора. Если k ₀ - значение k, при котором реализуется указанный минимум, то назовем его длиной квазипериода с началом i ₀ и концом i ₀ + k ₀ -1. Ясно, что в случае, когда x (i) - периодическая функция с периодом n, мы будем иметь:

L (n)=0

и найденная длина квазипериода будет совпадать с n. Заменив теперь i ₀ на i ₀ + k ₀, найдем следующий квазипериод и т.д. Длины всех квазипериодов, отвечающих голосовым участкам сигнала, при обычной речи будут близки между собой и их среднее значение определяет высоту звука (высота основного тона).

Условимся для простоты все полученные отрезки называть “квазипериодами” (хотя для шипящих и пауз они таковыми не являются).

Нормируем каждый квазипериод по амплитуде.

Если x ₁, x ₂,…, x_n – последовательность значений сигнала на квазипериоде, то полагаем

M = Max (x ₁, x ₂,…, x_n), m = min (x ₁, x ₂,…, x_n)
i =1,2,… n

Если мы имеем 2 соседних квазипериода одинаковой длины n, то вычислим величину

которая характеризует, насколько один квазипериод отличается от другого. В случае отличия квазипериодов по длине, описанную величину строим аналогично, обозначая через n длину более короткого квазипериода. Вычислив такие величины для всех последовательных пар рассматриваемых квазипериодов, места смены аллофонов следует искать в середине пар, которым соответствуют локальные максимумы полученной последовательности. Пусть последовательность этих максимумов есть

e ₁, e ₂,…, e_L

Сигнал разбивается на блоки, границами которых служат соответствующие отсчеты.

Далее, на каждом из блоков подсчитывается число нестрогих минимумов исходного сигнала l и строится величина

a = n / l

где n -полное число отсчетов в блоке. Поскольку произнесение глухих взрывных звуков “ п, к, т ” связано с кратковременным перекрыванием ротовой полости, соответствующие участки речевого сигнала содержат отрезки “пауз” - кратковременное отсутствие речи. При 8-битной записи характерным свойством пауз является большое количество участков постоянства сигнала, так что в последней формуле число l не на много меньше числа n. В результате приходим к следующему критерию:

Если для блока выполняется неравенство

a <2,

то относим его к паузе. Отметим, что этот критерий может быть использован в модуле записи для определения начала и конца речевого сигнала.

Для выделения шипящих сигнал обрабатывается высокочастотным фильтром с частотой среза 1500 Гц. Пусть - последовательность значений профильтрованного сигнала.

Нумеруя отсчеты в пределах блока от 1 до n, строим величину

Она характеризует изменение энергии блока при указанной фильтрации. Характерным свойством шипящих является то, что для них изменение энергии при указанной фильтрации невелико и мы получаем следующий критерий:

Если для блока выполняется неравенство b <2, то этот блок относится к шипящей. В начале и в конце цепочки блоков, относящихся к шипящим, ставятся метки. Аналогичные процедуры выполняются для цепочки блоков, относящихся к паузе.

Выделив шипящие и паузы, переходим к сегментации голосовых звуков. Для этого находим все локальные максимумы последовательности e ₁, e ₂,…, не относящиеся к выделенным отрезкам шипящих и пауз, и в соответствующих местах сигнала проставляем метки, считая их границами между участками голосовых аллофонов.

Лекция 6

Тема. Построение классификаторов распознавания речевых сигналов на основе скрытых марковских моделей

Сегментация на основе выделения квазипериодов

Поиск по сайту