Пусть заданный речевой сигнал оцифрован с частотой дискретизации 20050 Гц, разрядность 8-битных. Тогда его можно представить последовательностью значений
![]() ![]() |
Разобьем сигнал на квазипериоды. Рассмотрим функцию.
![]() |
Найдем ее минимум по всем k таким, что Min ≤ k ≤ Max
Здесь Min и Max - числа, которые заранее определяются в соответствии с высотой голоса диктора. Если k 0 - значение k, при котором реализуется указанный минимум, то назовем его длиной квазипериода с началом i 0 и концом i 0 + k 0 -1. Ясно, что в случае, когда x (i) - периодическая функция с периодом n, мы будем иметь:
L (n)=0
и найденная длина квазипериода будет совпадать с n. Заменив теперь i 0 на i 0 + k 0, найдем следующий квазипериод и т.д. Длины всех квазипериодов, отвечающих голосовым участкам сигнала, при обычной речи будут близки между собой и их среднее значение определяет высоту звука (высота основного тона).
Условимся для простоты все полученные отрезки называть “квазипериодами” (хотя для шипящих и пауз они таковыми не являются).
Нормируем каждый квазипериод по амплитуде.
Если x 1, x 2,…, xn – последовательность значений сигнала на квазипериоде, то полагаем
M = Max (x 1, x 2,…, xn), m = min (x 1, x 2,…, xn) | |
![]() |
Если мы имеем 2 соседних квазипериода одинаковой длины n, то вычислим величину
![]() |
которая характеризует, насколько один квазипериод отличается от другого. В случае отличия квазипериодов по длине, описанную величину строим аналогично, обозначая через n длину более короткого квазипериода. Вычислив такие величины для всех последовательных пар рассматриваемых квазипериодов, места смены аллофонов следует искать в середине пар, которым соответствуют локальные максимумы полученной последовательности. Пусть последовательность этих максимумов есть
e 1, e 2,…, eL |
Сигнал разбивается на блоки, границами которых служат соответствующие отсчеты.
Далее, на каждом из блоков подсчитывается число нестрогих минимумов исходного сигнала l и строится величина
a = n / l |
где n -полное число отсчетов в блоке. Поскольку произнесение глухих взрывных звуков “ п, к, т ” связано с кратковременным перекрыванием ротовой полости, соответствующие участки речевого сигнала содержат отрезки “пауз” - кратковременное отсутствие речи. При 8-битной записи характерным свойством пауз является большое количество участков постоянства сигнала, так что в последней формуле число l не на много меньше числа n. В результате приходим к следующему критерию:
Если для блока выполняется неравенство
a <2,
то относим его к паузе. Отметим, что этот критерий может быть использован в модуле записи для определения начала и конца речевого сигнала.
Для выделения шипящих сигнал обрабатывается высокочастотным фильтром с частотой среза 1500 Гц. Пусть - последовательность значений профильтрованного сигнала.
Нумеруя отсчеты в пределах блока от 1 до n, строим величину
![]() |
Она характеризует изменение энергии блока при указанной фильтрации. Характерным свойством шипящих является то, что для них изменение энергии при указанной фильтрации невелико и мы получаем следующий критерий:
Если для блока выполняется неравенство b <2, то этот блок относится к шипящей. В начале и в конце цепочки блоков, относящихся к шипящим, ставятся метки. Аналогичные процедуры выполняются для цепочки блоков, относящихся к паузе.
Выделив шипящие и паузы, переходим к сегментации голосовых звуков. Для этого находим все локальные максимумы последовательности e 1, e 2,…, не относящиеся к выделенным отрезкам шипящих и пауз, и в соответствующих местах сигнала проставляем метки, считая их границами между участками голосовых аллофонов.
Лекция 6
Тема. Построение классификаторов распознавания речевых сигналов на основе скрытых марковских моделей