Интеллектуальные интерфейсы




 

В основном процесс диалога действует как чисто пассивный посредник. Независимо от выбранной структуры диалога входные сообщения, получаемые через процессы ввода, механически преобразуются в форму, удобную для релевантного рабочего процесса. Выходные сообщения из рабочего процесса подвергаются подобному преобразованию, но в обратном направлении. В диалогах, которые поддерживают различные режимы работы, предварительное входное сообщение может устанавливать контекст диалога, который влияет на то, как должна интерпретироваться текущая входная последовательность, но эта интерпретация все еще носит механический характер. Интерфейс не понимает содержание сообщения в момент осуществления преобразования. Ему не требуется знаний ни о характере поведения пользователя, ни о внутренней структуре рабочих процессов, ни о данных, с которыми они манипулируют, а нужны только некоторые правила преобразований форматов. “Адаптивные” средства обеспечивают лишь расширение этих механизмов, которые желательно применять пользователю, обладающему определенными характеристиками. Типы интерфейсов, описываемые в этой главе имеют несколько общих характеристик, которые позволяют называть их в некотором смысле интеллектуальными. Основная особенность состоит в том, что преобразования, включенные в интерфейс, до сих пор проводившиеся через механизм определений, должны осуществляться в контексте отображаемой предметной области. Такой интерфейс должен обладать некоторыми знаниями о мире задачи, в котором функционируют он и пользователь.

Так происходит постоянно при общении людей. Если говорящий произносит фразу: “В Берте есть что-то от свиньи”, то слушатель не понимает это так, как будто Берт – составная часть животного, из которого производят свинину. Люди постоянно приобретают и совершенствуют свои знания (свою “модель мира”). Они интерпретируют полученную информацию и словами выражают то, что хотят сказать в свете этой модели. Процесс, с помощью которого это делается, часто описывается в форме распознавания образов. Поступающая информация сопоставляется с образцами, содержащимися в модели мира, чтобы определить, какие из них пригодны, т.е. какая из интерпретаций предпочтительнее. Слушатель не может иметь модель человека как свиньи, шарящей по хлеву, а должен располагать моделью, метафорически связывающей поведение свиньи и определенных людей. Конечно, если бы ссылаясь на Берта, говорящий указывал бы на объект, имеющий завитой хвостик, копытца, розовое рыльце и издающий звук “хрю”, то слушатель должен был бы исправить свою модель мира, включив в нее этот образец.

Вторая особенность интеллектуальных интерфейсов заключается в том, что они также используют форму распознавания образов для интерпретации входных сообщений от пользователя в свете системной модели мира. Возникают две проблемы: сам по себе механизм распознавания образов, и обеспечение модели мира, которая приобретает и хранит образы.

Люди очень хорошо распознают образы и сравнивают их с семантическими образцами, хранящимися в их памяти. Известно, что из-за высокого уровня хранимых образцов люди могут правильно интерпретировать очень ограниченную и неполную информацию – правильная интерпретация сатирических карикатур и искусства импрессионизма зависит от этой способности. Требуется большая компьютерная мощность для обработки правил, используемых компьютерной системой при принятии простых решений (таких как выявление бракованных битов в битовом изображении), которые человек делает почти подсознательно в одно мгновение.

Третьей особенностью интеллектуальных интерфейсов является потребность в процессоре большой мощности. Однако, даже если предположить, что потенциал параллельных процессоров будет обеспечивать достаточную мощность обработки, остается проблема представления образцов в системной модели, а также получение новых образцов и совершенствование старых. Как можно запрограммировать компьютер, чтобы он сам обучался на основании опыта? Как компьютер может создать такую же модель мира, как и у его пользователя?

Интерфейсы в следующих разделах представлены лишь основными моментами. Они являются сферой активных совместных исследований в области взаимодействия человек-компьютер и искусственного интеллекта. Хотя на ограниченных контекстах (т.е. с очень ограниченной моделью мира) уже получено много впечатляющих результатов, еще очень много остается сделать. Читателю следует также знать, что существует научное направление, которое отнюдь не убеждено в выгодности разработки таких интерфейсов для пользователя.

 

Голосовой и зрительный ввод-вывод.

Неоднократно утверждалось, что полностью естественный интерфейс между человеком и компьютером будет достигнут только тогда, когда они смогут говорить друг с другом. Использование таких дополнительных средств, как речевые и визуальные представления, увеличивает полосу пропускания, необходимую для средств связи, и, следовательно, скорость, с которой должна передаваться информация.

Речевой вывод является, возможно, легчайшей из проблем как с концептуальной, так и технической точек зрения, а несколько чипов, обеспечивающих преобразование текста в речь, для дешевых микрокомпьютеров вполне доступна. Речь состоит из серии фонем, значащих звуков, аппаратурным базисом является сложный генератор тонов, который может синтезировать некоторый диапазон подходящих звуков. Проблема состоит в том, чтобы обеспечить набор правил, которые указывали бы, какая фонема должна быть использована для данного текстового слога; к сожалению, фонема зависит не только от определенного слога, но также от того, какие слоги предшествуют и следуют за ним. Эта тема была широко изучена лингвистами и было разработано несколько правил. Чем более исчерпывающий набор правил и шире диапазон генерируемых тонов, тем менее вероятно звучание полуприглушенного “металлического” голоса. Фактически, как в электронных пианино и барабанных устройствах, лучшие результаты получаются, если используются записанные, а не синтезированные звуки. Чтобы обеспечить восприимчивость с адекватным временем отклика, требуется процессор значительной мощности. Встает вопрос о целесообразности использования мощных процессоров в обычных приложениях, если известно, что человек воспринимает около 80% входной информации визуально и только 10% с помощью слуха.

Речевой ввод и техническое зрение (ввод изображений от телекамеры) являются примерами сопоставления образцов. Они расширяют возможности считывания документов. Образцы, с которыми проводится сопоставление, крайне многочисленны и сложны. Речевой ввод требует распознавания из непрерывных речевых волн правильной последовательности фонем и их преобразования в текстовые слоги в зависимости от контекста. В речевом выводе нет проблемы определения того, где кончается одно слово и начинается другое. Текст удобно разбит пробелами и символами пунктуации. Непрерывная речь так удобно разбита паузами; паузы часто могут делаться и внутри слов. Кроме того, сами фонемы будут изменяться в зависимости от личности говорящего, могут искажаться фоновым голосом. Для иллюстрации всей сложности процесса сформулируем две фразы:

На поле он косил траву. Наполеон косил траву.

Казнить, нельзя помиловать. Казнить нельзя, помиловать.

Как показывает этот пример, совершенно разные фразы могут звучать почти одинаково. Фактически много слов с различным значением и прочтением звучат одинаково. Является ли ввод read глаголом в прошедшем времени или red – прилагательное, Red – прозвище человека. В разговоре между людьми слушатель имеет контекст и множество дополнительных оттенков речи, выражаемых интонацией, выражением лица, жестами, поддерживающими его интерпретацию; эта дополнительная информация недоступна компьютерной системе.

Большинство серийных устройств речевого ввода распознают лишь ограниченный диапазон (200-300 слов) отдельных произношений и обычно должны настраиваться на конкретного говорящего. Они обеспечивают “голосовые кнопки”, аналогичные экранным кнопкам интерфейсов непосредственного манипулирования.

Это, очевидно, релевантно случаям, когда нельзя использовать руки и (или) глаза, например, слепые. В этом случае могут быть не существенными общая точность ввода и вывода, быстрота отклика. Известно, что лучше один раз увидеть, чем сто раз услышать; фактические издержки в требуемых битах гораздо больше, чем в пословице. Как определить большую сложность и взаимосвязь очертаний, которые создают картинку? В одном исследовательском проекте, в котором по серии телевизионных картинок предпринимались попытки определить походку людей, системе было известно, как определить парковую скамейку на прогулке! Большинство существующих коммерческих приложений достаточно просты. Они концентрируются на выделении существенных деталей из элемента картинки и на сравнении их с определенными образцами, например отыскиваются дефектные продукты путем сравнения деталей проверяемого продукта с деталями допустимого продукта. Даже это требует значительной памяти и мощности процессора.

Маловероятно, что речевой и зрительный ввод будет формировать главную компоненту большинства серийных интерфейсов в ближайшем будущем. Однако тип зрительного вывода (интерактивное видео) недавно стал реальным и надежным механизмом. Хотя его нельзя рассматривать в качестве "интеллектуального”, он может обеспечить значительные преимущества при выводе визуального изображения.

Интерактивное видео дает возможность вывести изображение из дискового видеоплейера, управляемого компьютером. Оно обеспечивает фотографическое качество вывода в областях, в которых не может поддерживаться соответствующий уровень сложности компьютерной графики Оно использовалось для обучения языку знаков глухих путем показа картинного знака, нанесенного на само слово. Оно также обеспечивает механизм, посредством которого клиент может видеть изображение спортивных состязаний, в то время как клерк просматривает сведения о гостинице.

Видеодиск является средой, обеспечивающей высокую емкость хранения, к которому может осуществляется произвольный доступ. Видеоплейер обеспечивает быстрый доступ к видеодиску и управляется программой, с помощью программных пакетов; весь процесс очень похож на чтение с магнитного диска. Цифровой вывод с видеодиска может просматриваться на мониторе, как в кино, но в определенных рамках, которые высвечиваются на экране по запросу. Видеоплейер не очень дорог, достаточно дорого производство видеодисков. Поэтому его применение очень выгодно в областях, где относительно статистическая информация запрашивается из большого числа мест, например для агентов бюро путешествий. Если микрокомпьютер использует видеокассеты, а не видеодиски то в качестве дополнительного накопителя вместо дискового плейера используется видеокассетный плейер. Ограничения стандартны: низкая скорость поиска и возможность лишь последовательного доступа.

Подходы, описанные в этом разделе, сосредоточены на расширении сферы процессов ввода-вывода, с помощью которых могут связываться пользователь и система. В следующем разделе мы проследим подходы, которые пытаются расширить грамматику связи. Как мы увидим, этот подход не лишен подобных проблем.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-10-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: