Решение задачи 3. Алгоритм Баума-Уэлча.




Необходимо подобрать параметры скрытой модели Маркова так, чтобы максимизировать вероятность данной последовательности наблюдений.

Вводятся переменные

ξt(i,j) = P(qt=Si,qt+1=Sj|O,λ),

которые показывают вероятность того, что при заданной последовательности наблюдений O система в моменты времени t и t+1 будет находиться соответственно в состояниях Si и Sj. Используя прямую и обратную переменные запишем:

  αt(i)aijbj(ot+1t+1(j)   αt(i)aijbj(ot+1t+1(j)
ξt(i,j)= ____________________ = ________________________
  P(O|λ)  
αt(i)aijbj(ot+1t+1(j)
N N  

 

Введем переменные вероятности того, что при заданной последовательности наблюдений O система в момент времени t будет находиться в состоянии Si:

  N  
γt(i)= ξt(i,j)
  j=1  

При этом мы можем вычислить ожидаемое число переходов из состояния Si: равно

T-1  
γt(i)
t=1  

а ожидаемое число переходов из состояния Si в состояние Sj:

T-1  
ξt(i,j)
t=1  

Исходя из этого можно получить формулы для переоценки параметров модели Маркова:

π*it(i)

 
T-1  
ξt(i,j)
t=1  

 

a*ij= _________________
 
T-1  
γt(i)
t=1  

 

 

 
T-1  
γt(j)
t=1,ot=k  

 

b*ij(k)= _________________
 
T-1  
γt(j)
t=1  

 

Выражение

T-1  
γt(j)
t=1,ot=k  

в формуле для b*ij (k) означает что суммируются только те γt(j), для которых значение состояния равно k, то есть Ot = k.

После переоценки параметры модели либо выясняется, что она уже была оптимальной до переоценки либо обязательно улучшаются ее параметры (то есть правдоподобность модели после переоценки выше, чем до переоценки во всех случаях, когда модель можно оптимизировать).

Лекция 7

Тема. Построение классификаторов распознавания речевых сигналов (продолжение)

На лекции будет рассмотрено:

Классификатор на основе гауссовских смесей.

Распознавание речи с помощью нейросетей.

 

Гауссовы смешанные модели (GMM)

В отличие от СММ, ГСМ игнорирует временную информацию об акустической наблюдаемой последовательности и содержит состояния, отражающие различные акустические классы.

Для каждой фонемы создается модель, представленная на рис.7.1, которая определяет вероятность принадлежности фрейма этой фонеме.

Рис.7.1. Гауссова смешанная модель для одной фонемы

 

Для одного фрейма сигнала для одной фонемы (рис.7.1) ГСМ представлена в виде

,

где – вектор признаков фрейма,

– веса, , ,

, –многомерное распределение Гаусса,

– вектор математических ожиданий размерности ,

– диагональная ковариационная матрица размерности ,

– количество состояний фонемы, обычно (начало, середина, конец), – длина вектора признаков,

– вектор параметров ГСМ.

Для всего сигнала для одной фонемы учитываются результаты распознавания всех фреймов. Функция максимального подобия (ML) представлена в виде

,

где – количество фреймов сигнала, .

Алгоритм обучения параметров EM (максимизации ожидания)

1. Инициализация весов , параметров (например, случайно)

2. Получить очередной вектор сигнала

3. Вычислить матрицу условных вероятностей

,

, ,

4. Вычислить новые весовые коэффициенты

,

5. Вычислить новые средние

,

6. Вычислить новую диагональную ковариационную матрицу

,

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-09-06 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: