МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное ГОСУДАРСТВЕННОЕ бюджетное ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ»
Факультет информатики
и вычислительной техники
Кафедра информационной
безопасности
ОТЧЕТ
О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ
на тему:
“Разработка программного средства идентификации личности по голосу”
Выполнил: студент БИс-51
Стариков К.А.
Научный руководитель
Парсаев Н.В.____________
Йошкар-Ола
2016 г.
Оглавление
Введение.................................................................................................... 3
1. Структура систем распознования диктора ........................................... 4
2. Получение образца и его предобработка ............................................. 5
3. Методы извлечения признаков ............................................................. 6
3.1. Мэл-частотные кепстральные коэффициенты ............................ 7
....... 3.2. Кепстральные коэфф. на основе линейного предсказания ........ 9
4. Обработка признаков ............................................................................ 9
5. Методы классификации ...................................................................... 10
....... 5.1. Вычесление расстояния ............................................................. 11
....... 5.2. Метод ближайшего соседа ........................................................ 11
....... 5.3. Векторное квантование ............................................................. 13
....... 5.4. Модель гауссовых смесей ......................................................... 13
....... 5.5. Метод опорных векторов ......................................................... 15
Заключение............................................................................................. 18
Список использованных источников.................................................. 19
Введение
Голос — такая же неотъемлемая черта каждого человека, как и его лицо или отпечатки пальцев. Широкое распространение средств связи (стационарные и мобильные телефонные сети, интернет-телефония и т.д.) открывают большие возможности для применения данного идентификатора; кроме того, распознавание по голосу весьма удобно для пользователей и требует от них минимум усилий.
|
Необходимо учитывать, что голос (наряду с почерком, походкой и т.п.) относится к т.н. «поведенческим» идентификаторам, и было бы напрасным ожидать от использующих данные идентификаторы технологий высокой точности и надежности.
Технологии и средства идентификации по голосу применяются в ряде областей, непосредственно связанных с обработкой обращений пользователей по телефону, что позволяет ускорить обслуживание абонентов и разгрузить операторов. В более значимых проектах (особенно связанных с необходимостью защиты конфиденциальной информации) идентификация по голосу играет вспомогательную роль по отношению к другим биометрическим технологиям (прежде всего идентификации по отпечаткам пальцев).
Идентификация по голосу основана на анализе уникальных характеристик речи, обусловленных анатомическими особенностями (размер и форма горла и рта, строение голосовых связок) и приобретенными привычками (громкость, манера, скорость речи).
Голос подвержен существенным изменениям под воздействием эмоциональных факторов (настроение человека) и состояния здоровья (ангина, насморк, бронхит и т.д.). На качестве идентификации могут сказываться внешние условия (например, посторонние шумы от дорожного движения, разговоров других людей). Если для передачи голосовой информации используются линии связи, помехи в них также способны затруднить распознавание пользователя.
|
Структура систем распознавания дикторов
Работа систем распознавания содержит два основных этапа: регистрация пользователей в системе и сам процесс распознавания (попытка идентификации или верификации). Пользователи предварительно регистрируются в системе, записав свои голоса. Образец голоса каждого диктора обрабатывается с целью извлечения признаков, которые могут быть использованы для распознавания. На основе извлечённых признаков строятся модели (в некоторых случаях более подходящим термином является «шаблон») пользователей. Модель представляет собой некоторую структуру, позволяющую при данных признаках оценить степень подобия либо сразу принять решение.
В случае верификации пользователь пытается войти в систему, предъявляя идентификатор и образец голоса. Признаки, извлечённые из предъявленного образца, сравниваются с соответствующей моделью, сохранённой в базе, а также, возможно, с референтной моделью, представляющей фиксированное множество некоторых пользователей, либо наиболее близких к данному голосу. Результат сравнивается с заданным порогом и выдаётся положительное или отрицательное решение о допуске. Во время процесса идентификации также происходит извлечение признаков из предъявленного образца, которые затем сравниваются с моделями всех зарегистрированных в системе пользователей либо предварительно отобранных.
|
Таким образом, общая схема системы распознавания реализуется с помощью следующих основных этапов или уровней.
• Уровень обработки сигналов. На данном уровне сигнал обрабатывается с целью выделить признаки, существенные для задачи распознавания. Речевой сигнал представляется с помощью последовательности векторов признаков.
• Уровень моделей. При регистрации пользователя данный уровень использует полученную от уровня обработки сигналов последовательность век торов признаков для построения модели. Моделирование может заклю- чаться как в простом копировании векторов признаков, так и в построении вероятностных моделей или других структур. После чего становится возможным при данных признаках вычислить степень подобия между признаками и сохранённой моделью.
• Уровень принятия решений. Функции принятия решений традиционно выделяют в отдельный уровень, хотя он может выполнять тривиальные функции или отсутствовать, если на уровне моделей вычисляются конечные решения. Для принятия решений используются степени подобия, вычисленные на уровне моделей, и, если необходимо, заданные пороги.