FTP (File Transfer Protocol)




Пользователь может просмотреть каталог удалённой машины, перейти из одного каталога в другой, скопировать необходимые файлы. Информация хранится в виде архивов.

TELNET

- это ресурс, который позволяет соединить ПК пользователя с сервером и обеспечить работу так, как будто терминал пользователя является терминалом сервера.

№2

1. Электронная почта (e-mail) – это средство обмена информацией подготовленная в электронном виде между людьми, имеющими доступ к компьютерной сети.

2. Списки-рассылки. Эта услуга позволяет определённому количеству пользователей поставлять периодические издания, рекламную информацию.

3. Usenet – глобальная распределительная система для дискуссий, включающая множество групп новостей, хранящихся в Интернете.

4. IRC (chat) – обмен в реальном времени текстовыми сообщениями.

5. Интернет пейджинг (Internet paging) – это система, позволяющая зарегистрироваться в своей системе серверов и получить уникальный пейджинговый номер. Это программа ICQ. При подключении программа ICQ определяет IP-адрес вашего ПК и отправляет его на центральный сервер. И вы можете вызывать человека, подключённого в данный момент к интернету.

6. Аудиоконференция

7. Видеоконференция

8. Радиовещание, телевидение через Интернет

9. Интернет-телефония – это возможность передачи сообщений, приём с ПК на телефон, с телефона на ПК и с телефона на телефон. Программа SKYPE.

 

№ 15. Возможности современного ПК. Перспективы развития.

Возможности современного ПК.

Известно, что ПК был изобретён как средство вычисления, однако постепенно к его возможностям добавляются и другие функции. Сегодня невозможно сходу перечислить все сферы применения ПК. «ПК есть средство решения тех задач, которые человек в состоянии ему поручить на данном уровне развития техники». Проследим, как расширялась область применения ПК по мере развития его графических, коммуникационных и интеллектуальных возможностей:

1. Компьютерная графика сыграла важнейшую роль в развитии вычислительной техники, определив десятки направлений использования современного ПК. Появление тридиграфики позволило создавать цифровые прототипы. Благодаря ей археологи смогли воссоздать древнейшие умершие города, палеонтологи – увидеть вымерших животных, криминалисты – создать фотороботы.

2. Приложения виртуальной реальности нашли применения в индустрии развлечений. Архитекторы получили в свои руки инструмент градостроительного планирования, медики – инструмент диагностики. Преобразовался процесс выбора товаров (виртуальные магазины).

3. Мощные графические серверы позволяют учёным исследовать и оценивать в виртуальной трёхмерной геофизической среде сейсмические данные и модели нефтяных месторождений. Компьютерная графика революционизировала процесс создания мультипликаций, позволило создавать в кино виртуальные декорации любой сложности. Расшифровка геномочеловека (развитие генной инженерии).

4. В области лингвистики компьютеры позволяют автоматически создавать рефераты, аннотации текстов, проводить коррекцию орфографии и морфологии; выполнять перевод не только текстов, но и речевых сообщений; синтезировать научные тексты; распознавать и синтезировать человеческую речь.

5. Внедрение сетей позволило превратить ПК из вычислительного в коммуникационное устройство. Появление глобальной сети Интернет стало стимулом рождения многих новых профессий компьютера – электронная почта, ICQ, skype, цифровое телевидение – которыми пользуются представители самых разных профессий.

Информационные технологии в третьем тысячелетии.

Сегодня при создании компьютеров приоритет отдаётся сверхмощным компьютерам (суперкомпьютерам) и также миниатюрным персональным ПК. Для создания миниатюрных ПК используются новые технологии.

1. Молекулярные ПК – это устройства, где вместо чипов (транзисторов) используются так называемые интеллектуальные молекулы, которые могут существовать в двух термодинамических устойчивых состояниях с разными свойствами. Переводить из одного состояния в другое можно будет с помощью света, тепла, магнитного поля, формируя двухбитовую систему. Размеры такого ПК будут значительно меньше, а эффективность может оказаться в сто миллиардов раз выше.

2. ПК на базе молекул ДНК. Если обычный ПК манипулирует нулём и единицей, то ДНК имеет 4 базовых сочетаний (А, Г, Ц, Т). ДНК-логика обещает высокую вычислительную производительность при малых объёмах аппаратного обеспечения.

3. Квантовые ПК – ещё более компактное устройство, у которого в качестве битов выступают квантовые объекты. Вместо нуля и единицы будет использоваться квантовый бит (кубит).32 бита смогут образовывать 4 миллиарда сочетаний.

Продолжаются работы по созданию нейрокомпьютеров – это многопроцессорные ПК, где информация хранится не в отдельных процессах, а в нейросетях. Идёт параллельная обработка информации как в мозгу человека.

В мобильных устройствах встраиваются элементы речевого управления, используется дисплей, проектирующий изображение на сетчатку глаза. Мобильные устройства смогут заменить кошелёк и банковскую карту. Будет использоваться цифровое телевидение для мобильных устройств. В третьем тысячелетии компьютеры позволят испытать все пять чувств. Новые технологии позволят не только видеть, слышать, но и обонять, осязать и даже чувствовать вкус.

Японские учёные утверждают, что коммерческий запуск трёхмерных телевизионных устройств будет возможен к 20-ому году, осязание и обоняние будут возможны.

Перспективы развития.

Направления развития сети Интернет:

1. Упрощение процедуры подключения к сети Интернет

2. Постоянное повышение скорости доступа к сети

3. Увеличение количества IP-адресов (введена шестая версия протокола IP, которая поддерживает не 4-х байтовое, а 16-ти байтовое число, что позволит создавать 1039 IP-адресов)

4. Предоставление пользователям всё более широких возможностей (интернет-телефония, интерактивное телерадиовещание, электронная торговля, …)

5. Повышение пропускной способности сети Интернет

6. Создание сети Интернет-2 (Web-2)

Цель: высокоскоростная сеть; сеть строится на базе протокола IP-6, что позволяет подключить к сети не только ПК, но и все портативные устройства. По ней беспрепятственно передаётся мультимедийная информация. Пользователю Web-2 будет доступ к сети Интернет-1, а наоборот нет.

Предполагается, что в конце 21 века Интернет станет основным средством связи.

 

 

№ 16. Моделирование как основной метод решения задач ИТ. Общие принципы решения лингвистических задач методом моделирования.

Моделирование как основной метод решения задач ИТ.

Суть в том, что для решения задач строится модель некого объекта/процесса/явления.

 

Модель – это формализованное описание объекта, выраженное в конечном набором предложений какого-то языка, математическими формулами, таблицами, схемами.

Свойства модели:

1. модель – это упрощение аналога изучения явления, процесса или объекта

2. не должна быть сложнее своего оригинала

3. метод моделирования должен быть более экономным по сравнению с другими методами изучения того же объекта

4. должна быть предельно простой и не содержать противоречий

5. должна иметь универсальный характер, позволяющий использовать её для изучения других подобных объектов

6. должна отражать наиболее существенные черты реального объекта

Виды модели:

· структурные (служат и используются для изучения и описания внутреннего строения некоторого объекта)

· функциональные (позволяют изучать поведение объекта, течение процесса)

· динамические (позволяют объяснять процесс, явление в динамическом развитии)

В лингвистич. инф. чаще всего используются функциональные модели.

 

Общие принципы решения лингвистических задач методом моделирования.

Процесс моделирования на ПК:

 

1. Постановка задач. Говоря о постановке задач, выделяются следующие действия:

а) описание решения задач; б) формулировка цели моделирования; в) анализ оригинальной модели объекта (выявление формальных признаков, которые мог бы легко опознать компьютер).

2. Разработка моделей. Модель строится в виде алгоритма. Алгоритм – точные предписания по выполнению в определённом порядке некоторые последовательных действий (физических, умственных), приводящие к решению определенной типовой задачи.

 

Свойства алгоритма:

1) дискретность (алгоритм разработан на конкретное число шагов, при чем только после выполнения предыдущего шага можно перейти к выполнению следующего)

2) результативность (при всех начальных условиях число шагов конечно и приводит к решению задач)

3) массовость (по одному и тому же алгоритму может быть решён целый ряд типовых задач, которые отличаются лишь начальными условиями)

4) детерминированность (при многократном решении одной и той же задачи с одинаковыми начальными условиями всегда получается один и тот же результат)

5) формализованность (тот, кто выполняет алгоритм (человек/ПК) может не вникать в смысл того, что он делает согласно предназначению алгоритма и всё равно придёт к верному результату)

Способы записи алгоритмов:

· словесный

· графический (шаги изображаются различными геометрическими фигурами: прямоугольник, круг, ромб, параллелограмм)

· словесно-графический (чаще всего используется для записи алгоритмов при решении лингвистических задач)

· табличный

3. Компьютерноый эксперимент. Проведение компьютерного эксперимента связано с созданием на основе алгоритма компьютерной программы на каком либо комп. Языке. Т.е. записи каждого шага алгоритма в виде команды алгоритмического языка

4. Анализ результата работы компьютерной модели. В процессе анализа результата работы выявляются ошибки в алгоритме и программе.

 

№ 17. Назначение и возможности систем автоматического чтения текста.

Для быстрого и качественного ввода текстовой информации в ПК широко используется сканер, который работает по принципу фотоаппарата. Для того, чтобы «понять» его содержание, т.е. перевести графическое изображение в текстовую форму, необходимы системы автоматического чтения текста или оптического распознавания символов (OCR – Optical Character Recognition).

Основные принципы работы OCR:

1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.

2. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.

3. Адаптивность – это способность компьютерной системы к обучению.

Широко известны следующие OCR-системы: FineReader, CuneiForm.

Этапы работы программы FineReader:

1. Этап сканирования. Получение графического образа документов (можно использовать цифровой фотоаппарат).

2. Распознавание: а) анализ графического макета страницы (выделение областей для распознавания таблиц, картинок; выделение в тексте строк и отдельных символов); б) распознавание каждого символа на основе различных алгоритмов распознавания.

3. Проверка орфографии (ошибок).

4. Сохранение.

Алгоритмы распознавания (классификаторы):

· шаблонные (шрифтозависимые). Растровое (точечное) изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим шаблоном является тот, у которого наименьшее количество точек отличается.

· признаковые (шрифтонезависимые). Анализируют не всё изображения знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ, а его характеристики. Не отвечает принципу целостности.

· структурные (шрифтонезависимые). Содержат информацию не о точечном изображении символа, а о правилах его начертания (или структуре).

В FineReader работают все типы классификаторов. Экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.

Возможности систем OCR.

1. Во время сканирования системы автоматически подбирают яркость, фрагментируют каждую страницу, распознают символы текста, проверяют ошибки.

2. Позволяют распознавать печатные (около 200 языков), рукопечатные, рукописные тексты.

3. Способны самообучаться и распознавать плохо пропечатанные символы.

4. Распознают изображения, полученные с помощью цифрового фотоаппарата.

5. Распознают файлы в формате PDF.

Развитие программ OCR сегодня идёт в направлении повышения точности распознавания текстов низкого качества, распознавания рукописных текстов, выделения текстовой информации на фоне шумов, а также интеграции OCR-систем с различными программами обработки информации (система машинного перевода).

 

№ 18. Аннотация и реферат текста – основные понятия. Методы автоматического аннотирования и реферирования текста. Позиционный и логико-семантический методы.

Аннотация и реферат – основные понятия.

Реферат – это связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, полученные (основные) результаты описанного исследования.

Аннотация – это краткое изложение содержания документа, дающее общие сведения о его теме.

Это вторичные документы.

Составление реферата (аннотации) текста с помощью компьютера называют автоматическим реферированием (аннотированием) текста. Машинный реферат представляет собой либо последовательность предложений исходного текста либо таблицу, в ячейках которой располагаются ключевые слова или словосочетания. 1958 год – первый машинный реферат.

Этапы построения реферата человеком:

1. подготовительный (референт читает весь текст и пытается понять его в целом)

2. аналитический (референт выделяет в тексте основные смысловые единицы + строится план будущего реферата)

3. этап непосредственного построения реферата (аннотация) – (выделенные ранее смысловые единицы располагаются в единый вторичный текст в соответствии с планом)

В качестве смысловых единиц реферата могут быть:

1. полное (без изменения) ключевое предложение исходного текста

2. перефразированные ключевые предложения исходного текста

3. предложения, составленные из ключевых слов или словосочетаний с помощью связующих элементов

4. предложение, обобщающее несколько предложений исходного текста

Смысловые единицы аннотации:

1. ключевые слова или словосочетания исходного текста с предшествующими им специальными словами-реляторами типа «Рассматривается важная проблема…»

2. специальные предложения исходного текста, содержащие либо оценочные элементы текста («Статья посвящена…»), либо содержащие клише, т.е. специализированные словесные штампы («Ставится задача…»)

Компьютер должен уметь:

1. находить в тексте ключевые слова, словосочетания, предложения

2. находить в тексте менее значимые единицы

3. составлять из текстовых единиц смысловые единицы реферата и аннотации

4. располагать их

Методы автоматического аннотирования и реферирования текста.

1. Статический

2. Позиционный

3. Логико-семантический

Позиционный и логико-семантический методы.

ПОЗИЦИОННЫЙ. Основным критерием этих методов является место или позиция предложения в исходном тексте. Выделяют два позиционных метода: а) метод заглавия (считается, что основное содержание текста выражается текстом заголовка, поэтому составляется словарь ключевых слов на основе знаменательных слов заголовков, подзаголовков); б) метод локализации, или местонахождения (такой метод работает на текстах узкой тематики). Идея метода в таких текстах – предложения о цели, результатах исследования занимают фиксированное место. Эти методы используются комплексно и дают результат где-то 75%.

ЛОГИКО-СЕМАНТИЧЕСКИЙ. Исследуют структуру и семантику текста. Ключевые предложения – это предложения с наибольшим функциональным весом, на величину которых влияют различные факторы (связь с левым и правым окружением, наличие в предложении семантически значимых слов, …). Сегодня появились методы второго поколения, основанные на выделении из текстов документов, наиболее информативной информации и генерирования с помощью её новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Эти системы могут работать сразу с несколькими источниками и с видеоинформацией. Существует разные теории реализаций этих методов. SUSY, Text Analyst.

 

№ 19. Методы автоматического аннотирования и реферирования текста. Статистический метод.

Методы автоматического аннотирования и реферирования текста.

1. Статический

2. Позиционный

3. Логико-семантический

Статический метод.

В этом методе ключевое слово – это знаменательное слово текста, которое с учётом его синонимов встречается наибольшее число раз. Ключевое предложение – это предложение исходного текста, которое: а) имеет несколько ключевых слов; б) ключевые слова находятся на небольшом расстоянии друг от друга. Принадлежность слова к числу ключевых определяется специальным коэффициентом важности.

Задача: используя для выделения ключевых слов текста из вариантов статического метода, а именно коэффициент важности равен: Кважн. = F*m/N*n (где F – частота употребления слова в тексте; m – число абзацев, в которых встретилось слово; N – количество слов в тексте; n – количество абзацев в тексте), составить алгоритм, позволяющий получить:

а) аннотацию текста в виде релятора со следующими за ними ключевыми словосочетаниями. (Ключевое словосочетание – это имя существительное со стоящим перед ним определением, выраженное прилагательным или причастием);

б) словесный реферат текста в виде последовательной цепочки ключевых предложений (содержит три и более ключевых слов).

Словоупотребление – это цепочка буквенных символов, находящихся между двумя знаками пробелов. Словоформа – это словоупотребление, находящееся вне предложения. Слово (лексема) для компьютера – несколько словоформ, имеющих одно и то же лексическое значение. Предложение с точки зрения ПК – это цепочка словоупотреблений, заключённых между двумя знаками конца предложения.

Алгоритм решения задачи:

1. ПК по каждому абзацу текста составляет алфавитно-частотный словарь

2. алфавитно-частотные словари объединяются в единый распределительный словарь словоформ всего текста

3. машина проводит чистку словаря, сжимает его до словаря потенциально ключевых слов:

ü удаляется вся служебная и общеупотребительная лексика

ü объединяет все грамматические форма одного и того же слова

ü удаляет слова, которые встретились только в одном абзаце

ü объединяет синонимы

4. словарь потенциальных ключевых слов делится на: а) словарь главных опорных слов; б) второстепенных слов

5. строится аннотация, которая составляется из слов-реляторов и следующими за ними ключевыми словами-сочетаниями (из списка главных опорных слов)

6. строится реферат из главных и второстепенных опорных слов (просматривая исходный текст, ПК извлекает из него предложения, содержащие три и более опорных слова).

 

№ 20. Способы перевода текста с помощью ПК.

Перевод – вид человеческой языковой деятельности, в результате которой некоторый текст на одном языке ставится в соответствии тексту на другом языке, при этом обеспечивается их эквивалентность содержания.

1) ТРАДИЦИОННЫЙ (РУЧНОЙ) ПЕРЕВОД

Перевод, выполняемый человеком с помощью: а) в памяти ПК – двуязычный словарь и текстовый редактор; б) системы TM (Translation Memory). В основе этих программ лежит принцип сбора и хранения фрагментов, переведённых человеком текстов на двух языках. Они хранятся в специальном накопителе переводов и служат бесценным подспорьем при последующих переводах текстов той же тематики. Для каждой тематики создаётся новый накопитель, ими можно обмениваться (программных продуктов более 10-ти – популярная «TRADOS»). В системе Prompt встроен модуль ТМ.

2) АВТОМАТИЗИРОВАННЫЙ ПЕРЕВОД

Перевод, выполняемый ПК с помощью человека (ПК делает перевод, а за справками обращается к человеку).

Машинный перевод

1954 год – первый машинный перевод (США, физика, английский язык à французский)

1955 год – первый машинный перевод (Москва, математика, французский язык à русский)

Машинный перевод (автоматический перевод) – выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другой язык при сохранении эквивалентности содержания, а также результат этого действия. Специалисты сегодня утверждают, что такой перевод по существу невозможен. Поскольку большинство слов имеет несколько значений, то основная трудность в переводе заключается именно в выборе нужного значения, для чего человек использует контекст, свой жизненный опыт, который практически невозможно формализовать и загрузить в ПК. Машинный перевод на сегодняшний день представлен двумя технологиями: а) машинный перевод, основанный на правилах языка; б) статический машинный перевод (основан на сопоставлении параллельных текстов, больших объёмов и вычислении наиболее вероятного перевода).

Виды машинного перевода:

1. Информативный (грубый пословный перевод, достаточный для поверхностного ознакомления с содержанием текста)

2. Профессиональный (качество перевода сравнимо с качеством «человеческого» перевода и при небольшом редактировании является удовлетворительным)

3. Персональный, авторский (работает в режиме диалога автора с ПК).

 

№ 21. Структура системы машинного перевода и назначение её основных блоков.

Системы машинного перевода (СМП) являются моделями, которые воспроизводят на ПК речевое поведение человека, переводящего текст с одного языка на другой язык.

 

1. В процессе морфологического анализа слов предложения исходного языка, каждое слово получает наборы лексико-грамматических признаков. ПК формирует эти наборы с опорой на двуязычный автоматический словарь.

2. Синтаксический анализ предложений исходного языка сводится к поиску основных членов предложения (выделения подлежащего, сказуемого и т.д.), формируется структура.

3. Синтаксический синтез предложений переводного языка заключается: а) в создании структуры предложений переводного языка, определяемый правилами ПЯ и ИЯ, что выполняется на основе блока «синтаксические соответствия»; б) замена слов исходного языка на их переводные эквиваленты.

4. Каждое слово предложения ПЯ ставится в нужную форму, для чего используется двуязычный словарь.

Успех СМП во многом зависит от автоматических словарей. При создании словаря решаются следующие задачи:

1. Выбор типа лексической единицы для словаря; используется два способа представления лексической единицы: а) в виде словоформ, т.е. в словарь заносятся всевозможные формы каждого слова и подаются гнёздами; б) в виде квазиосновы: выключ. # … 003 (числа, стоящие после решётки наборы лексико-грамматических признаков (суффикс, окончание и т.д.), которые необходимо присоединить к основе, чтобы получить соответствующие формы слов, они называются типами форм слов).

2. Отбор лексики для входного словаря и отбор переводных эквивалентов для выходного словаря.

При выборе лексической единицы словоформу целесообразно использовать для языков аналитического типа (английский, французский, т.е. те, которые имеют мало форм), а для флективных и аглюциативных целесообразно использовать квазиоснову (русский, немецкий, белорусский).

(Вывод) Обе технологии машинного перевода имеют свои положительные и отрицательные стороны. Поэтому наметилась тенденция объединить оба метода. Promt уже два года разрабатывает гибридную систему перевода, что позволит:

1. сохранить преимущества традиционной технологии (формирование синтаксически связанного и грамматически правильного текста)

2. получить преимущества (быстрая обучаемость)

3. получение данных из параллельных корпусов и гладкость текста.

Promt, Systran (на западе)

Преимущества использования СМП:

1. ускорение перевода à экономия времени

2. МП научно0технических документов приближается к переводу, выполненному человеком

3. можно доверить перевод конфиденциальной информации

4. экономия денег

5. облегчает просмотр веб-сайтов

 

№ 22. Определение понятия «понимание текста компьютером». Уровни автоматического понимания текста.

База знаний – это определённым образом организованные лингвистические и нелингвистические данные, а также правила их обработки.

Определение понятия «понимание текста компьютером».

Проблема понимания текста компьютером ещё находится на начальной стадии изучения, поэтому существуют разные точки зрения на проблему компьютерного понимания. Наиболее сложным для понимания являются тексты, описывающие взаимоотношения и поступки действующих лиц. В этом случае в ПК должны храниться большие базы знаний об окружающем мире. Более простыми являются тексты, содержащие описание фрагментов статического мира. Понимание в таких системах трактуется как извлечение из текста наиболее существенной, с точки зрения ПК, информации. Полученная в результате понимания информация может пополнить базу знаний компьютерной системы или может быть передана пользователю. Под передачей понятого пользователю имеют в виду способность ПК отвечать на вопросы пользователя относительно событий описанных в тексте не в виде отдельных предложений или слов, а в виде связного текста. В общем плане, согласно современным теориям автоматического понимания текстов, ПК понял текст, если он может:

· кратко изложить его содержание

· ответить на вопросы к этому тексту

· на основе текста нарисовать картинку или схему

· приведённые в тексте сведения представить в иной форме (в виде таблицы или графика)

· на основе анализа текста, написанного на одном языке, выдать адекватную информацию на другом языке

· сравнить содержание двух разных текстов и выдать информацию о том, что в них общего и в чём различия

· путём анализа одного или нескольких разных текстов извлечь такие знания, которые можно поместить в некоторую базу знаний

Уровни автоматического понимания текста.

Компьютерное понимание текста реализуется в рамках решения конкретной относительно узкой задачи. Соотнося уровни понимания текста компьютером с основными уровнями языка можно выделить следующие уровни автоматического понимания:

1. МОРФОЛОГИЧЕСКИЙ. Морфологическое понимание сводится к автоматическому приписыванию каждому слову текста его морфологических характеристик. В последние годы такие операции легко реализуется в рамках автоматического лексико-грамматического анализа при создании корпусов текста. Корпус текста – совокупность текстов, являющихся достаточными для обеспечения надёжных научных выводов о некотором языке, диалекте.

2. СИНТАКСИЧЕСКИЙ. Суть синтаксического понимания текста заключается в автоматическом выделении в каждом предложении текста главных и второстепенных членов и установления между ними различных типов связи.

3. СЕМАНТИЧЕСКИЙ. В процессе семантического понимания текста автоматически устанавливаются значения, выделенные на синтаксическом уровне. ПК определяет например: выражено подлежащее одушевлённым или неодушевлённым существительным; сказуемое выражено глаголом движения или чувствования; обстоятельство какое (места, времени, …). Подобные процедуры проводятся с опорой на необходимое окружение, с которым всегда связано данное слово.

4. ГИПЕРСИНТАКСИЧЕСКИЙ, ИЛИ ПРАГМАТИЧЕСКИЙ. Гиперсинтаксическое понимание связано с выяснением семантических отношений между предложениями текста и с выявлением соответствующей тексту ситуации реальной действительности.

 

№ 23. Типы автоматического понимания текста.

Компьютерная система, понимающая письменный текст, должна иметь в своей базе знаний определённую информацию:

1. знание о языке, на котором написан текст

2. правила использования знаний о языке

3. знания о реальном мире (конкретной предметной области)

4. правила использования соответствующих знаний о фрагменте реального мира

5. знание о пользователе системы, желающем получить от ПК некоторое понимание.

В зависимости от сложности используемых знаний и их количества различают следующие типы автоматического понимания письменных текстов:

1. понимание-узнавание (при этом в ПК имеются лишь знания о языке). Суть понимания сводится к тому, что ПК узнаёт морфологическую структуру каждого слова, предложения, проводит синтаксический анализ предложений, узнаёт ключевые слова, словосочетания, предложения. По этому принципу работают системы автоматического аннотирования, реферирования, индексирования.

2. Понимание-уподобление (ПК должен иметь знания о языке и правила использования этих знаний). Считается, что система понимает текст, если она может ответить на вопросы по этому тексту. При таком понимании ПК просто находит готовые ответы в своей базе знаний, ранее занесённой человеком (таким образом, ПК уподобляется человеку).

3. Понимание-прогнозирование (ПК дожжен иметь знания о языке, правила использования этих знаний, и знания о конкретной предметной области). Эти системы ориентированы на понимание текстов достаточно узкой предметной области. Считается, что система понимает текст, если она может определить, какой объект или событие предметной области соответствует отдельным фрагментам этого текста. Однако одним и тем же фрагментом текста могут соответствовать разные объекты или события, поэтому соотносить их можно лишь с определённой степенью вероятности (отсюда термин «прогнозирование»).

4. Понимание-объединение (в базе знаний представлены 4 вида знаний: знания о языке, правила их использования, знания о предметной области и правила использования этих знаний). Объединяя эти виды знаний, компьютерная система должна уметь делать выводы, умозаключения по тексту, а также объяснять, почему она сформировала тот или иной вывод (эта работа экспертных систем).

5. Понимание-объяснение (автоматическая система имеет в своей базе знаний все пять видов знаний, включая знания о целях, намерениях, профессиональной компетенции пользователя). Система должна уметь объяснить пользователю, каким образом она поняла текст. Так как система должна давать объяснения любому конкретному пользователю с учётом уровня его образования знаний и опыта. В таких системах используется диалог «компьютер – пользователь».

Сегодня проблема автоматического понимания реализована в следующих компьютерных системах, позволяющих извлекать из текста определённую информацию:

1. система автоматического индексирования, аннотирования, реферирования текстов и перевода

2. информационные и информационно-поисковые системы

3. экспертные системы, выступающие в роли высокопрофессионального специалиста в какой-то предметной области.

 

№ 24. Автоматическое порождение письменного текста: определение, этапы, виды компьютерных систем.

Эти системы являются гораздо более сложными, чем системы понимания. Проблемами порождения текстов с помощью компьютеров исследователи занимаются с начала 70-х годов. До сих пор нет единой теории текстообразования и она находится в стадии становления. Не может быть создана единая теория порождения текста. Основная причина – неоднозначное определение понятия «текст». Создатели диалоговых систем под «текстом» понимают любую реплику, состоящую из нескольких слов или предложений. Создатели систем генерации метеосводок под текстом понимают некоторую таблицу. Для создающих инструкции текст – это цепочка несвязанных между собой предложений. Художественные, научно-популярные тексты (стихи, сказки) - здесь необходимы законы построения текстов разных стилей и жанров.

Этапы порождения текста.

Установлено, что процесс текстообразования состоит из двух этапов:

1. стратегический (должно быть принято решение «что писать»)

2. тактический (решение «как написать»)

Результатом выполнения первого этапа должно стать семантическое (смысловое) содержание будущего текста. Результатом выполнения второго этапа должен стать собственно сам текст в языковой форме.

Виды компьютерных систем.

Условно делятся на две группы:

1. системы, работающие на основе шаблонных технологий. Они строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками. Эти системы достаточно просты и надёжны. Находят широкое промышленное применение. Содержание порождаемого текста представлено в виде фрагментов текстов, созданных ранее людьми, значит, они выглядят естественными. Надо отметить, что системы первой группы работают с очень жёсткими типами текстов. Например, тексты деловой прозы (GSM-навигаторы).

2. Компьютерные системы, работающие на основе лингвистически мотивированных технологий. В этом случае для создания текста системе необходимы знания структуры, содержания генерируемого текста, а также сложные лингвистические знания, которые позволяют выразить это содержание языковыми средствами. Пример, создание сказок, рассказов, анекдотов, рекламы. В настоящее время лингвистически мотивированные технологии находятся на стадии исследования. Существуют только экспериментальные системы.

№ 25. Общая структура системы порождения письменного текста.

Несмотря на разногласия, исследователи разных стран пришли к выводу, что в общем плане в системах автоматического порождения текста должны быть представлены три взаимосвязанных компонента:

1. оболочка

2. планировщик

3. лингвистический реализатор

Оболочка.

Определяет назначение порождающей системы. В ней также содержится вся база знаний, которая состоит из двух частей:

1. нелингвистической (предметной), в которую входят понятия связи и отношения между понятиями конкретной предметной области, к которой будет относиться порождаемый текст.

2. лингвистической, которая включает формализованные сведения о конкретном языке, на котором генерируется текст (списки морфем; словарь с лексикой; синтаксические структуры предложений; семантико-синтаксические структуры абзацев и всего текста).

Планировщик

Выполняет следующие функции:

1. определяет ту информацию, которая должна быть представлена в тексте

2. определяет порядок следования абзацев в тексте

3. устанавливает порядок следования синтаксических составляющих в пределах абзаца и всего текста

4. осуществляет языковое оформление взаимосвязи предложений в абзаце и в тексте

5. осуществляет построение синтаксической структуры предложений будущего текста

6. осуществляет выбор соответствующей лексики

Все эти задачи планировщик решает с опорой на базу знаний (оболочку).

Лингвистический реализатор

Обеспечивает грамматическую правильность порождаемого текста и принимает все окончательные синтаксические и морфологические решения.

 

№ 26. Автоматическое распознавание устной речи.

Несмотря на то, что проблемами распознавания устной речи учёные уже занимаются более 60 лет, до сих пор проблемы в полном объёме не решены. Под распознавание речи компьютером в полном объёме понимается такое распознавание, которое подобно восприятию речи человеком в любых условиях и при общении с любым чело



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-12-27 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: