Речевой сигнал. Общие сведения




Методы и алгоритмы цифровой обработки сигналов

методические указания для выполнения лабораторных работ

для магистров направления 231000.68 «Программная инженерия»

 

 

Ижевск, 2012 г.


 

Оглавление

Оглавление. 2

Введение. 3

1. Речевой сигнал. Общие сведения.. 3

2. Выделение интервалов вокализованных и невокализованных звуков. 5

3. Классификация речи по нормированному коэффициенту корреляции с единичной задержкой.. 9

4. Классификация речи по энергии в полосе частот. 13

5. Классификация речи по частоте пересечения нулевого уровня.. 16

6. Формирование обобщенного признака Т/НТ. 17

7. Задание на выполнение лабораторной работы №1 «Изучение признаков классификации речевых сигналов» 18

8. Задание на выполнение лабораторной работы №2 «Принятие решения о классификации речевых сигналов» 19

9. Содержание отчета.. 20

Заключение. 20

Литература.. 21

Приложение 1. Форма титульного листа.. 22


Введение

Звуки речи делят на вокализованные (тональные) и невокализованные (нетональные). К вокализованным относят звуки, произносимые с участием голосового источника, к невокализованным - без участия голосового источника. Наличие или отсутствие вокализации есть один из основных признаков акустического сигнала речи. Оценка наличия или отсутствия вокализации необходима для построения систем распознавания, компрессии и синтеза речи. Устройства принятия решения о наличии или отсутствии вокализации получили название устройств выделения сигнала "ТОН/НЕ ТОН" (Т/НТ). Одним из основных требований к системам обработки речевых сигналов является наличие надежного алгоритма классификации речи по способу возбуждения.

Цель работы. Овладеть навыками предварительной обработки цифрового сигнала и классификации цифрового сигнала по ряду признаков на примере сегментации речевого сигнала на тональные и нетональные интервалы.

Речевой сигнал. Общие сведения

Рис. 1.1 Схема механизма образования речи по Фланагану [10]

На рис. 1.1 изображена схема, описывающая механизм образования речи в человеческом организме [10]. При разговоре грудная клетка расширяется и сжимается, прокачивая поток воздуха из легких по трахее через голосовую щель. Если голосовые складки напряжены, как при образовании звонких звуков типа гласных, они вибрируют и модулируют поток воздуха, превращая его в короткие импульсы. Если голосовые складки расслаблены, воздух свободно проходит через голосовую щель, не подвергаясь модуляции. Воздушный поток проходит через глоточную полость и в зависимости от положения мягкого неба - через ротовую и (или) носовую полости и воспринимается как речь.

Источник речевого сигнала имеет четыре основных способа возбуждения [6]: голосовое (тональное) возбуждение, шумовое (турбулентное) возбуждение, смешанное возбуждение и взрыв.

Голосовой источник может быть представлен в виде пульсирующего воздушного потока. Форма импульсов воздушного потока имеет приблизительно треугольный вид или усеченную снизу синусоиду (рис. 1.2) [8]. Колеблясь, голосовые связки создают последовательность голосовых импульсов (рис. 1.3, 1.4)

Наиболее важным параметром голосового источника [10], [12] можно считать длительность периода колебаний голосовых связок T0, которая получила название периода основного тона (ОТ). Величина, обратная периоду основного тона, F0=1/T0, называется частотой основного тона.

Диапазон изменения частоты основного тона очень широк и составляет примерно 50...500 Гц в разговорной речи [6], [9].

Далее последовательность голосовых импульсов проходит через речевой тракт, который можно представить как последовательность резонансных полостей с амплитудной частотной характеристикой изображенной на рис. 1.5.

 

Параметры голосового источника представлены в речевом сигнале сложным образом, так как речевой сигнал есть свертка сигнала источника и импульсной характеристики речеобразующего тракта. Речеобразующий тракт вносит ряд искажений, затрудняющих определение параметров источника. Нестабильность самого голосового источника, являющегося инструментом живого организма, дополнительно увеличивает трудности выделения его параметров [7].

2. Выделение интервалов вокализованных и
невокализованных звуков

В системах распознавания и обработки речи необходимо определять интервалы вокализации речевого сигнала, интервалы отсутствия вокализации и паузы [3]. Под интервалами вокализации понимают интервалы времени, в течение которых генерация звуков речи происходит с участием голосового источника. К вокализованным звукам относят гласные и звонкие согласные. К невокализованным - интервалы времени, на которых образование звуков речи идет без участия голосового источника (глухие согласные). Паузами считают интервалы времени, когда речевой сигнал отсутствует.

На рисунке 2.1 показана осциллограмма слова «Четыре». Маркеры 2, 3, 4 и 5 на рис. 2.1 разделяют вокализованные интервалы речи (между маркерами 4 и 5), невокализованные шумовые интервалы (между маркерами 2 и 3), а также интервал, соответствующий взрывному звуку «т» (между 3 и 4).

На рисунке 2.2 приведены примеры спектров гласного звука «ы» и глухого согласного звука «ч».

Способ образования звука есть один из основных признаков классификации фонем [6]. Выделение вокализованных, невокализованных интервалов и пауз в качестве признаков, характеризующих речевой сигнал, имеет самостоятельное значение в системах распознавания и обработки речи.

Деление речевых сигналов на вокализованные, невокализованные звуки и паузы не является полным соответствием процессу их генерации. Если гласные, образуются в основном только с помощью голосового источника, то в речеобразовании звонких фрикативных согласных принимают участие как голосовой, так и турбулентный источники. Доля того и другого источника в образовании разных звуков может быть различна.

Характеристики пауз также не остаются постоянными и могут существенно изменяться в зависимости от места их появления. Паузы имеют место во время смычки при произнесении смычной согласной, между словами, между синтагмами и предложениями. Они могут иметь семантический смысл, могут определяться способом образования фонем или дыхательным процессом. Длительность паузы может изменяться от нескольких миллисекунд до десятков секунд. В целом, паузы можно разделить на фонетические, т.е. обусловленные спецификой речеобразования фонем, и все остальные.

Основными признаками принятия решения "ТОН/НЕ ТОН" (Т/НТ) служат [3]:

1. Энергия звука в различных областях спектра: для вокализованных звуков она сосредоточена, главным образом, в низкочастотном диапазоне, для невокализованных - в высокочастотном.

2. Энергия вокализованных звуков сконцентрирована в формантных областях, энергия невокализованных - распределена по спектру более равномерно.

3. Энергия вокализованных звуков пульсирует с частотой основного тона, невокализованных - более равномерна, кроме взрывных /п/, /т/, /к/ и аффрикат /ц/, /ч/.

4. Распределение вероятностей мгновенных значений сигнала невокализованных звуков близко к гауссовскому закону, распределение для вокализованных звуков отлично от гауссовского.

5. Частота пересечений нуля сигналом вокализованных звуков ниже частоты пересечений нуля сигналом невокализованных звуков.

6. Вокализованный сигнал квазипериодчен. В невокализованном сигнале периодичность ОТ отсутствует. Существуют системы, принимающие решение Т/НТ по наличию или отсутствию периодичности в сигнале.

7. Отдельно можно выделить коэффициенты линейного предсказания и ошибку линейного предсказания [5]. Например известно [5], что первый коэффициент линейного предсказания модели первого порядка на вокализованных участках стремится к +1, а на невокализованных стремится к -1.

Одним из основных требований к выделителю ОТ является наличие надежного алгоритма классификации речи по способу возбуждения.

Сегментацию речи на тональные интервалы обычно выполняют асинхронно с ОТ. Обработка асинхронная с ОТ предполагает фиксированный размер кадра анализа, длительностью большей периода ОТ. Можно считать, что текущий кадр анализа располагается случайным образом и возможно попадание участков с разным типом возбуждения речевого тракта в один кадр. Решение о принадлежности данного кадра к какому-либо способу возбуждения будет во многом зависеть от соотношения длительностей участков с разным способом возбуждения попавших в данный кадр. Затруднительно отнести данный кадр к какому-либо способу возбуждения. В обработке синхронной с ОТ кадры анализа привязаны к периодам ОТ. Можно предположить, что привязка интервалов анализа к периодам ОТ позволит избежать подобную неопределенность. Зная границы периода ОТ можно исследовать его внутреннюю структуру.

Рис. 2.3 Способы классификации речи по признаку Т/НТ: а) асинхронно с ОТ; б) синхронно с ОТ

На рис. 2.3 показаны обобщенные схемы формирования признака Т/НТ синхронно и асинхронно с ОТ. На рис. 2.3а исходный сигнал сегментируют на тональные интервалы, а затем только тональные интервалы подвергают выделению ОТ. При сегментации речи асинхронно с ОТ кадры анализа имеют длительность превышающую длительность периода ОТ и следуют с перекрытием.

На рис. 2.3б по исходному речевому сигналу сначала проставляют марки. На тональных интервалах место простановки марки соответствует импульсам глотки, а на нетональных интервалах ‑ случайным импульсам шума. По маркированному сигналу определяют признак Т/НТ для каждого кадра анализа. Под кадром анализа здесь следует понимать участок сигнала между соседними марками. Длительность каждого тонального интервала можно принимать за оценку периода ОТ. Кадры анализа следуют без перекрытия, за счет чего существенно повышается скорость обработки.

В соответствии с рис. 2.3б синхронный с ОТ алгоритм принятия решения Т/НТ требует простановки марок ОТ до этапа сегментации речи на тональные и нетональные интервалы.

3. Классификация речи
по нормированному коэффициенту корреляции
с единичной задержкой

Нормированный коэффициент корреляции с единичной задержкой определим следующим образом:

(3.1)

где Kc-нормирующий множитель. Принято Kr=50.

По значениям выражения 3.1 можно оценить общий наклон спектра сигнала [5]. Отношение (3.1) изменяется в пределах [0;100], причем для вокализованных звуков (спектр которых имеет спад к высоким частотам) ‑ близко к 100, а для шумовых (спектр имеет спад к низким частотам) ‑ близко к 0 или значительно меньше 100. На рис. 2.3 показаны спектры для шумового (рис. 2.3а) и вокализованного (рис. 2.3б) звуков, из которых видно, что спектр вокализованных звуков имеет подъем нижних частот, спектр невокализованных звуков на нижних частотах имеет спад.

Паузы в речи обычно заполнены слабыми относительно случайными колебаниями, спектр которых в основном зависит от спектра фонового шума. Поведение функции R(1) в данном случае можно считать непредсказуемым.

На рис. 3.1а, 3.1б представлены осциллограмма слова “четыре” и функция первого коэффициента линейного предсказания данного произнесения. Марки 2..5 показывают границы сегментов с разным источником возбуждения речевого тракта (2-3 шумовой источник, 3-4 пауза, 4-5 голосовой источник). На рис. 3.2б тональный и шумовой участки можно надежно разделить по значениям функции R(1). Поведение функции R(1) на паузе (между марками 3-4), во-первых, не стабильно, во-вторых, значения функции R(1) паузы близки к значениям R(1) тонального сегмента. Второе замечание говорит о том, что паузы и тональные сегменты не всегда могут быть разделимы с помощью функции R(1).

Рис. 3.1 Нормированный коэффициент корреляции с единичной задержкой: а) осциллограмма слова “четыре”; б) функция нормированного коэффициента корреляции с единичной задержкой; в) функция нормированного коэффициента корреляции с единичной задержкой, вычисленного при добавлении шума с размахом 20отс.

Для лучшего разделения паузы и вокализованного сигнала по R(1) необходимо приблизить спектр паузы к спектру невокализованных звуков. Для этой цели в работах [1], [2] предложено смешивать сигнал с шумом определенного уровня и определенной спектральной окраски:

, (3.2)

где SN(i) - сигнал с добавленным шумом, S(i) - исходный речевой сигнал, N(i) - шум, имеющий спектр с подъемом верхних частот, i - номер отсчета.

На рис. 3.2 представлены примеры гистограмм распределений функции R(1) тональных и нетональных интервалов для случаев без добавляемого шума (рис. 3.2а, 3.2б) и для шума с интенсивностью в 20 отсчетов (рис. 3.2в, 3.5г). В качестве речевого материала использовали по одному произнесению фраз “Не видали мы такого невода”, "Саша кусал сало", "На ухабе" и "Жирные сазаны ушли под палубу". В эксперименте принимали участие 12 дикторов (6 мужчин и 6 женщин). Для тональных сегментов изменение формы гистограммы не значительно, для сегментов пауз мода распределения сместилась влево

На рисунке 3.3 изображены графики, иллюстрирующие процесс выбора порога классификации, минимизирующий вероятность ошибки классификации. Из. рис. 3.3 видно, что при добавлении шума вероятность ошибки классификации быстро снижается до уровня 6,7% при уровне добавляемого шума 15 уровней квантования. Дальнейшее повышение уровня добавляемого шума приводит к медленному росту вероятности ошибки классификации. Т.о. можно изменять уровень добавляемого шума в достаточно широких пределах, например от 10 до 40 уровней квантования и вероятность ошибки классификации останется в приемлемом диапазоне и не превысит 8%.

 




Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-13 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: