Сегментация речевого сигнала




Цель шага сегментации подготовить для этапа классификации гипотезы границ сегментов на основе признаков, характерных для целого сегмента или больших единиц речи, таких как слоги и слова.

Система пробует найти стационарные области (где признаки изменяются несущественно) и затем маркировать сегментированную область согласно тому, насколько признаки в пределах той области соответствуют индивидуальным признакам фонетических единиц. Эта стадия – основа акустическо-фонетического распознавателя. Ее надежность определяет качество работы всей системы, поэтому для ограничения диапазона вариантов сегментации и возможной маркировки используются различные стратегии. Стратегия маркировки может использовать лексические ограничения на слова, чтобы рассмотреть только слова с n фонетическими единицами всякий раз, когда сегментация дает n-1 границ сегментов. Эти ограничения уменьшают область поиска и значительно увеличивают эффективность (точность сегментации и маркировки) системы.

В мире системы сегментации находятся на уровне лабораторных разработок, исследования в этой области являются достаточно перспективными, а использование даже частных результатов сегментации в сочетании с другими техниками дает значительные преимущества в распознавании. Известно несколько общих подходов к сегментации речевого сигнала. Часть из них основана на фильтрации, часть оперирует такими просто вычисляемыми параметрами, как число пересечений определенного уровня и относительная энергия в заданных областях частот, часть ориентирована на использование формантных признаков. Часть исследователей использует спектрально-временное представление речи, часть – кепстрально-временное.

Ряд работ посвящен описанию методов выполнения предварительной сегментации речевых сигналов на основании признаков, относящихся к широкому классу способов артикуляции, используемых при, пре­рывании голоса, произнесении звонких взрывных и сонорных звуков. Такие алгоритмы не позволяют получить окон­чательную сегментацию, однако, если возможна последующая кор­рекция ошибок, то они могут быть полезны в качестве первого шага в процессе фонетической идентификации. Трудность состоит в том, что точная сегментация на основании простых акустических критериев невозможна. Для некоторых случаев сегментации необходимо детальное знание связей между фоноло­гией, артикуляцией и акустикой. В немногих случаях решения могут быть произвольными. Границы сег­ментов в этих случаях могут быть переопределены для удобства исследователей. Другие задачи, например, определение числа сег­ментов в словах коала, миллион или нахождение второй гласной в вы­ражении прими от, являются более сложными. Движение формант, со­ответствующее сочетанию прими от, акустически аналогично многим формантным переходам между гласными и согласными и анало­гично промежуточному звуку ненапряженных гласных.

Расщепление фрикативных последовательностей провести трудно, по­скольку они зависят от сложных проверок изменений спектра, ко­торые должны быть организованы так, чтобы исключить специаль­ные изменения, например, такие, как изменение спектров в взрывных сочетаниях. Два взрывных звука в сочетаниях не всегда можно отличить от одного взрывного звука, так как первый из них редко можно выделить, а их интер­вал смыкания ненамного больше, чем для одного предударного взрывного звука. Наконец, встречаются случаи искажения поло­жения третьей форманты, связанные с объединением пиков фор­мант для некоторых переходов между согласными и гласными. Например, в слове уа появляется дополнительный сегмент, если полагаться на расположение максимума и минимума формант у последовательности сонорных сегментов (видимо, следует счи­тать только максимумы и минимумы в F1 и F3).

Методы сегментации и общие положения об их реализации

Основное преимущество использования архитектуры распознавания, ориентированной на сегментацию, – дополнительная гибкость и возможность классификации сегмента в целом (в сравнении с фрейм-ориентированной концепцией).

Знание расположения границ сегмента позволяет использовать мощные внутри- и межсегментные признаки. Высокая степень корреляции между параметрами фреймов речи фонетического сегмента, как по частоте, так и по длительности – хорошо известный факт. Одна из тем исследований в области классификации сегментов – моделирование этих корреляций с использованием представления признаков, которое фиксирует динамику (траектории) параметров на протяжении всего фонетического сегмента.

Системы распознавания речи можно разделить на два класса: явно и неявно сегментирующие речь (фрейм-ориентированная архитектура). Системы, основанные на фреймах, неявно делят речь на фонетические сегменты как результат распознавания каждого фрейма. В основном, эти системы работают с малыми словарями, где основная единица распознавания – целое слово.

Для распознавания непрерывной речи и слов большого словаря применяют пофонемное распознавание, использующее явную сегментацию РС, т. е. разбиение сигнала на фонетически или артикуляторно значимые элементы. В связи с тем, что акустические характеристики для каждого из представителей фонетического класса сильно различаются, то для них невозможно отыскать инвариантные, контекстно-независимые признаки. Поэтому исследуют динамические свойства РС. Использование динамики состоит в оценке различия между векторами признаков соседних фреймов сигнала. В пределах одного сегмента расстояние между векторами не должно превышать некоторый порог. Недостатком этого подхода к сегментации является необходимость настройки порога, который зависит от голосовых данных диктора и интенсивности сигнала, а также невозможность четкого определения границ между фонемами, имеющими небольшой уровень амплитуды.

Приведем несколько алгоритмов сегментации



Поделиться:




Поиск по сайту

©2015-2025 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-09-06 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: