Отчет студента о практике. В последние годы распознавание образов занимает одно из основных направлений




В последние годы распознавание образов занимает одно из основных направлений развития интерфейса во взаимодействии человека с человеком через компьютер. Интерфейс-это средство взаимодействия пользователя с программно-аппаратными системами. Интерфейсы бывают разные и реализуются разными средствами и методами. Например, всем известен графический интерфейс, который основан на использовании компьютерной графики для того, чтобы отображать пользователю необходимую ему информацию в наглядном виде. Для человека удобнее, привычнее иметь интерфейс, аналогичный его обычному общению между людьми. Человеку хотелось бы в идеале иметь голосовой интерфейс. Информационный обмен между людьми может происходить либо в текстовой форме, т.е. в виде письменного диалога, либо в голосовом общении т.е. в виде речевого диалога. Письменный диалог между человеком и программно-аппаратными системами реализован в виде диалогового интерфейса и является на данный момент наиболее распространенным средством общения между человеком и компьютером. Человек имеет произвольный доступ с помощью устройств ввода-клавиатуры и мыши ко всем видимым экранным объектам, т.е. элементам интерфейса. Вся информация визуализируется в виде диалоговых окон, с помощью которых человек взаимодействует с компьютером. Речевой диалог более богатый по уровню выражения эмоций и настроения, соответственно он более сложный. Источником речевого диалога является звук-это более сложное физическое явление чем нажатие клавишей на клавиатуре человеком, когда он набирает текстовую информацию.

Теперь давайте посмотрим каким образом происходит общение между людьми и какую роль занимает письменность. Письменность была производной от речевого общения между людьми. Письменность была потребностью сохранять информацию и обмениваться информацией между людьми при отсутствии других средств общения, возможно если бы у нас в древние времена были средства голосового интерфейса взаимодействия, письменный интерфейс не появился бы. Исходная точка появления письменного интерфейса безусловно является речь.

В развитии голосового интерфейса сделано не так много по сравнению с письменным интерфейсом. На данный момент имеется два направления распознавания речи, первое направление-это распознавание на уровне отдельно взятых слов, следующее на уровне фонем. Судя по источникам наиболее используемым направлением является распознавание на уровне слов. Распознавание на уровне отдельно взятых слов очень близко по сути к поисковым системам Яндекс и Google. Исходя из практического применения данных систем можно предположить, что берется отдельное слово и проверяется по словарю всех записанных слов в виде эталонов. Отдельно взятое слово может иметь разное произношение с учётом диалектов, исходя из этого следует, что если учитывать диалекты, то количество слов в словаре может возрастать в несколько раз. Таким образом, для качественного распознавания на уровне отдельно взятых слов словарь должен содержать огромное количество слов эталонов.

Поэтому необходимо концентрировать внимание на повышении качества распознавания, единственное направление повышения качества распознавания - это решение задачи распознавания речи на уровне фонем.
Между голосовыми участками идет повторяющийся ряд подобных фонемных участков той или иной фонемы. Наиболее ярко проявляют себя гласные фонемы. И определение отдельных участков повторяющиеся фонемы позволит более точно определить соответствующую фонему и отделить другие фонемы, негласные, которые имеют более хаотическую структуру. В связи с этим встают задачи выделения гласных фонем, их сопоставление и на их основе формулирование алгоритмов их распознавания. Для этого необходимо решить следующие задачи:

1. Проанализировать математические методы и модели описания волн, используемые при обработке и анализе звуковых волн.

2. Изучить особенности логико-лингвистического подхода и структуру представления волн через структурные матрицы.

3. Реализовать модель представления звукового потока в виде структурных матриц.

4. Проанализировать различные звуковые фрагменты гласных фонем для множества респондентов для установления подобия.

5. Предложить алгоритм формирования структурных матриц.

Распознавание на уровне фонем дает возможность получения нового качества распознавания, имея набор фонем и имея возможность распознавать каждую фонему, можно составлять фонемный словарь, а также позволит текстуально выписывать незнакомые слова, если они образованы фонетически правильно для конкретного языка.

 

 

Примечание:

1. На титульном листе после подписи студента должна ставиться дата окончания практики;

2. В п.№3 записывается формулировка темы задания на практику;

3. План выполнения индивидуального задания (п.№4) оформляется на отдельном листе, и после подписи студента должна ставиться дата начала практики;

4. В п.№5 желательно руководителем практики от предприятия завершать отзыв фразой:

«Материалы, изложенные в отчёте студента, полностью (или не полностью) соответствуют индивидуальному заданию».

5. Отзыв руководителя практики от предприятия пишется на отдельном листе;

6. Отчет студента по практике пишется на отдельных листах и его объем устанавливается руководителем практики от МАИ.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-01-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: