Сегментация на основе выделения квазипериодов




Пусть заданный речевой сигнал оцифрован с частотой дискретизации 20050 Гц, разрядность 8-битных. Тогда его можно представить последовательностью значений

,  

Разобьем сигнал на квазипериоды. Рассмотрим функцию.

,  

Найдем ее минимум по всем k таким, что MinkMax

Здесь Min и Max - числа, которые заранее определяются в соответствии с высотой голоса диктора. Если k 0 - значение k, при котором реализуется указанный минимум, то назовем его длиной квазипериода с началом i 0 и концом i 0 + k 0 -1. Ясно, что в случае, когда x (i) - периодическая функция с периодом n, мы будем иметь:

L (n)=0

и найденная длина квазипериода будет совпадать с n. Заменив теперь i 0 на i 0 + k 0, найдем следующий квазипериод и т.д. Длины всех квазипериодов, отвечающих голосовым участкам сигнала, при обычной речи будут близки между собой и их среднее значение определяет высоту звука (высота основного тона).

Условимся для простоты все полученные отрезки называть “квазипериодами” (хотя для шипящих и пауз они таковыми не являются).

Нормируем каждый квазипериод по амплитуде.

Если x 1, x 2,…, xn – последовательность значений сигнала на квазипериоде, то полагаем

M = Max (x 1, x 2,…, xn), m = min (x 1, x 2,…, xn)  
i =1,2,… n  

Если мы имеем 2 соседних квазипериода одинаковой длины n, то вычислим величину

 

которая характеризует, насколько один квазипериод отличается от другого. В случае отличия квазипериодов по длине, описанную величину строим аналогично, обозначая через n длину более короткого квазипериода. Вычислив такие величины для всех последовательных пар рассматриваемых квазипериодов, места смены аллофонов следует искать в середине пар, которым соответствуют локальные максимумы полученной последовательности. Пусть последовательность этих максимумов есть

e 1, e 2,…, eL  

Сигнал разбивается на блоки, границами которых служат соответствующие отсчеты.

Далее, на каждом из блоков подсчитывается число нестрогих минимумов исходного сигнала l и строится величина

a = n / l  

где n -полное число отсчетов в блоке. Поскольку произнесение глухих взрывных звуков “ п, к, т ” связано с кратковременным перекрыванием ротовой полости, соответствующие участки речевого сигнала содержат отрезки “пауз” - кратковременное отсутствие речи. При 8-битной записи характерным свойством пауз является большое количество участков постоянства сигнала, так что в последней формуле число l не на много меньше числа n. В результате приходим к следующему критерию:

Если для блока выполняется неравенство

a <2,

то относим его к паузе. Отметим, что этот критерий может быть использован в модуле записи для определения начала и конца речевого сигнала.

Для выделения шипящих сигнал обрабатывается высокочастотным фильтром с частотой среза 1500 Гц. Пусть - последовательность значений профильтрованного сигнала.

Нумеруя отсчеты в пределах блока от 1 до n, строим величину

 

Она характеризует изменение энергии блока при указанной фильтрации. Характерным свойством шипящих является то, что для них изменение энергии при указанной фильтрации невелико и мы получаем следующий критерий:

Если для блока выполняется неравенство b <2, то этот блок относится к шипящей. В начале и в конце цепочки блоков, относящихся к шипящим, ставятся метки. Аналогичные процедуры выполняются для цепочки блоков, относящихся к паузе.

Выделив шипящие и паузы, переходим к сегментации голосовых звуков. Для этого находим все локальные максимумы последовательности e 1, e 2,…, не относящиеся к выделенным отрезкам шипящих и пауз, и в соответствующих местах сигнала проставляем метки, считая их границами между участками голосовых аллофонов.

 


 

Лекция 6

Тема. Построение классификаторов распознавания речевых сигналов на основе скрытых марковских моделей



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-09-06 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: