Цель шага сегментации подготовить для этапа классификации гипотезы границ сегментов на основе признаков, характерных для целого сегмента или больших единиц речи, таких как слоги и слова.
Система пробует найти стационарные области (где признаки изменяются несущественно) и затем маркировать сегментированную область согласно тому, насколько признаки в пределах той области соответствуют индивидуальным признакам фонетических единиц. Эта стадия – основа акустическо-фонетического распознавателя. Ее надежность определяет качество работы всей системы, поэтому для ограничения диапазона вариантов сегментации и возможной маркировки используются различные стратегии. Стратегия маркировки может использовать лексические ограничения на слова, чтобы рассмотреть только слова с n фонетическими единицами всякий раз, когда сегментация дает n-1 границ сегментов. Эти ограничения уменьшают область поиска и значительно увеличивают эффективность (точность сегментации и маркировки) системы.
В мире системы сегментации находятся на уровне лабораторных разработок, исследования в этой области являются достаточно перспективными, а использование даже частных результатов сегментации в сочетании с другими техниками дает значительные преимущества в распознавании. Известно несколько общих подходов к сегментации речевого сигнала. Часть из них основана на фильтрации, часть оперирует такими просто вычисляемыми параметрами, как число пересечений определенного уровня и относительная энергия в заданных областях частот, часть ориентирована на использование формантных признаков. Часть исследователей использует спектрально-временное представление речи, часть – кепстрально-временное.
|
Ряд работ посвящен описанию методов выполнения предварительной сегментации речевых сигналов на основании признаков, относящихся к широкому классу способов артикуляции, используемых при, прерывании голоса, произнесении звонких взрывных и сонорных звуков. Такие алгоритмы не позволяют получить окончательную сегментацию, однако, если возможна последующая коррекция ошибок, то они могут быть полезны в качестве первого шага в процессе фонетической идентификации. Трудность состоит в том, что точная сегментация на основании простых акустических критериев невозможна. Для некоторых случаев сегментации необходимо детальное знание связей между фонологией, артикуляцией и акустикой. В немногих случаях решения могут быть произвольными. Границы сегментов в этих случаях могут быть переопределены для удобства исследователей. Другие задачи, например, определение числа сегментов в словах коала, миллион или нахождение второй гласной в выражении прими от, являются более сложными. Движение формант, соответствующее сочетанию прими от, акустически аналогично многим формантным переходам между гласными и согласными и аналогично промежуточному звуку ненапряженных гласных.
Расщепление фрикативных последовательностей провести трудно, поскольку они зависят от сложных проверок изменений спектра, которые должны быть организованы так, чтобы исключить специальные изменения, например, такие, как изменение спектров в взрывных сочетаниях. Два взрывных звука в сочетаниях не всегда можно отличить от одного взрывного звука, так как первый из них редко можно выделить, а их интервал смыкания ненамного больше, чем для одного предударного взрывного звука. Наконец, встречаются случаи искажения положения третьей форманты, связанные с объединением пиков формант для некоторых переходов между согласными и гласными. Например, в слове уа появляется дополнительный сегмент, если полагаться на расположение максимума и минимума формант у последовательности сонорных сегментов (видимо, следует считать только максимумы и минимумы в F1 и F3).
|
Методы сегментации и общие положения об их реализации
Основное преимущество использования архитектуры распознавания, ориентированной на сегментацию, – дополнительная гибкость и возможность классификации сегмента в целом (в сравнении с фрейм-ориентированной концепцией).
Знание расположения границ сегмента позволяет использовать мощные внутри- и межсегментные признаки. Высокая степень корреляции между параметрами фреймов речи фонетического сегмента, как по частоте, так и по длительности – хорошо известный факт. Одна из тем исследований в области классификации сегментов – моделирование этих корреляций с использованием представления признаков, которое фиксирует динамику (траектории) параметров на протяжении всего фонетического сегмента.
Системы распознавания речи можно разделить на два класса: явно и неявно сегментирующие речь (фрейм-ориентированная архитектура). Системы, основанные на фреймах, неявно делят речь на фонетические сегменты как результат распознавания каждого фрейма. В основном, эти системы работают с малыми словарями, где основная единица распознавания – целое слово.
|
Для распознавания непрерывной речи и слов большого словаря применяют пофонемное распознавание, использующее явную сегментацию РС, т. е. разбиение сигнала на фонетически или артикуляторно значимые элементы. В связи с тем, что акустические характеристики для каждого из представителей фонетического класса сильно различаются, то для них невозможно отыскать инвариантные, контекстно-независимые признаки. Поэтому исследуют динамические свойства РС. Использование динамики состоит в оценке различия между векторами признаков соседних фреймов сигнала. В пределах одного сегмента расстояние между векторами не должно превышать некоторый порог. Недостатком этого подхода к сегментации является необходимость настройки порога, который зависит от голосовых данных диктора и интенсивности сигнала, а также невозможность четкого определения границ между фонемами, имеющими небольшой уровень амплитуды.
Приведем несколько алгоритмов сегментации