Классификация систем распознавания речи




Министерство образования и науки Донецкой Народной Республики

ГОУ ВПО Донецкий национальный университет

 

Распознавание речи

Курс лекций по дисциплине «Распознавание речи» для студентов магистратуры, обучающихся по направлению подготовки 09.04.01 – «Информатика и вычислительная техника»

 

Донецк – 2016

Лекция 1

Тема. Классификация и общая структура систем распознавания речи, подходы к их разработке.

В лекции будет рассмотрено:

Классификация систем распознавания речи.

Речевые базы данных.

Архитектура систем распознавания речи.

Проблемы, возникающие при разработке систем распознавания речи.

Введение: задача распознавания речи

Задача распознавания речи состоит в восстановлении по звуковому сигналу слова естественного языка (из ограниченного словаря), произне­сением которого является этот звуковой сигнал. Она обычно решается путем задания эталонов слов словаря и последующего сравнения звуко­вых сигналов с этими эталонами. Звуковой сигнал представляет из себя целочисленный вектор значений звукового давления, измеренного в рав­ноотстоящие друг от друга моменты времени. Мощность пространства звуковых сигналов огромна (типичное значение мощности множества сигналов длительностью в 1 сек., используемых в компьютерных систе­мах, равно 25611025 [4]). Для решения задачи распознавания обычно сна­чала равномерно разбивают сигнал на окна одинаковой длины. Окна преобразуют из временной области в частотную (например, с помощью преобразования Фурье [3]), чтобы близость окон относительно простых метрик (типа Евклидовой) соответствовала близости участков сигнала "на слух". Затем решается задача нахождения соответствия между ок­нами звукового сигнала и окнами эталонов слов словаря. Сложность последней задачи заключается в том, что различные участки звукового сигнала в различных произнесениях одного и того же слова отличаются разной степенью сжатия или растяжения (вовсе не пропорционального). Для решения задачи нахождения соответствия между окнами сигналов традиционно используются методы динамического программирования ([2]). Создание компьютерных систем распознавания речи связано со множеством объективных трудностей, накладывающих на подобные си­стемы искусственного интеллекта ряд ограничений.

Предельные возможности компьютера по распознаванию речи свя­заны прежде всего с тем, что человек, которого можно взять за эталон распознающей системы, распознает осмысленную речь, а компьютеру в полной мере это не дано. Компьютер принципиально не может с тре­буемой надежностью исправлять ошибки и неоднозначности распозна­вания, используя синтаксическую и семантическую связь слов предло­жения. Вместо этого в современных системах используется статистиче­ская модель, задающая связь последовательных троек слов предложения. Кроме того, человек использует зачастую дополнительную, незвуковую информацию. Самым ярким примером здесь может служить так на­зываемое "чтение по губам", которому могут обучиться глухие люди. Известно, что в шумной обстановке человеку легче распознавать речь, если он следит за губами говорящего. Человек воспринимает речь объ­емно, что позволяет ему производить шумоочистку и пространственное выделение сигнала более качественно, чем ЭВМ. Слуховой аппарат че­ловека позволяет ему с точностью до полупространства определить на­правление на источник полезного сигнала и отделить его от остальных звуковых источников.

Дополнительно, картина осложняется тем, что все известные алгоритмы распознавания речи являются дикторозависимыми. После на­стройки на голос одного диктора распознающие системы дают удовле­творительные результаты распознавания для этого типа голоса, но хуже работают на других голосах. Надежность распознавания речи челове­ком, напротив, не зависит от типа голоса диктора.

Все вышесказанное приводит к тому, что распознавание речи ком­пьютером обладает ограниченной надежностью, существенно повысить которую вероятно не удастся в будущем ни путем совершенствования алгоритмов распознавания, ни путем увеличения вычислительных мощ­ностей компьютера. Постоянно имея в виду это утверждение, можно приступать к анализу достижений в области распознавания речи, клас­сификации стоящих в этой области задач и оценке перспектив их реше­ния.

Классификация систем распознавания речи

Классификацию систем распознавания речи будем производить со­гласно новому стандарту в области программирования таких систем, принятому сейчас практически всеми известными разработчиками си­стем распознавания речи - Microsoft Speech API.

Согласно этому стандарту, системы распознавания речи различают по следующим признакам:

Интервал между отдельными словами. Если система распо­знает непрерывную речь, пользователь может произносить речевые фразы естественно, не делая паузы между словами. Непрерывное рас­познавание более предпочтительно, однако оно требует большей вычи­слительной мощности компьютеров, что приводит пока к малому числу таких систем. В системах, работающих с дискретной речью, пользо­ватель при диктовке должен делать паузу между отдельными словами, обычно составляющую не менее 1/4 частиь секунды. Третьей разновид­ностью являются системы, выделяющие одно слово из интервала речи, даже если он состоит из нескольких непрерывно произнесенных слов (word-spotting).

Зависимость от диктора. Системы, обладающие относительной независимостью от диктора, позволяют пользователю работать с си­стемой без предварительной настройки, однако улучшают надежность распознавания после обучения. Независимость от диктора таких систем обычно достигается за счет хранения звуковых эталонов для всех наи­более типичных голосов носителей данного языка. Это, безусловно, тре­бует в несколько раз большей производительности и объема памяти. На­стройка на голос диктора дикторозависимых систем занимает обычно от 30 минут до нескольких часов. Это составляет главное неудобство для пользователя. Обычно дикторозависимые системы позволяют ра­ботать с относительной степенью надежности без предварительной на­стройки на голос конкретного пользователя. Третьей разновидностью систем по этому признаку являются системы, автоматически настра­ивающиеся на голос диктора по мере их использования. Системы по­следнего типа обладают двумя особенностями - им нужно знать, сделал ли пользователь ошибку, произнеся конкретное слово (иначе обучение будет неверным); после настройки на одного диктора такие системы перестают надежно работать с другими голосами.

Степень детализации при задании эталонов. Различают алго­ритмы, в которых в качестве эталонов используются целые слова, и ал­горитмы, использующие эталоны элементов слов. Сравнение целых слов дает большую точность, скорость, однако требует значительно боль­шего объема памяти (пропорционально количеству слов в словаре) и обучения каждого слова. Алгоритмы сравнения элементов слов (фонем, слогов и т.п.) приходится применять в случае больших словарей, т.к. объем требуемой памяти пропорционален количеству этих эталонных элементов слов (например, звуков) и не зависит от объема словаря.

Размер словаря. Системы распознавания речи могут использо­вать большие или маленькие словари. Размер словаря системы распозна­вания почти не связан с реальным количеством слов, которые данная си­стема может распознать. Он определяется количеством слов, требуемых для распознавания в данном конкретном состоянии системы. Системы, работающие с маленькими словарями (около 50 слов) позволяет пользо­вателю давать простые команды компьютеру. Для диктовки текстов необходимы большие словари (несколько десятков тысяч слов). Если си­стемы диктовки учитывают контекст для определения активного под-словаря в конкретном состоянии, то фактически они работают со сло­варями среднего размера (около 1000 слов).

Несмотря на то, что в принципе возможна любая комбинация этих характеристик, в настоящее время наиболее популярными являются си­стемы голосового управления компьютером и системы дискретной дик­товки текстов.



Поделиться:




Поиск по сайту

©2015-2025 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-09-06 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: