Системы автоматического аннотирования и реферирования текстов




План:

1. Реферат и аннотация текста. Общее понятие

2. Методы автоматического аннотирования и реферирования текстов.

3. Составление аннотаций и реферата текста компом на основе статистического метода.

 

Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но ицель, применяемые методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа, дающее общее представление о его теме.

Это вторичные документы, которые составляются к научным книгам, статьям, патентам на изобретение.

Составление реферата (аннотации текста) с помощью ПК - автоматическое реферирование (аннотирование).

Машинный реферат – либо последовательность предложений исходного текста, либо таблица, в ячейках которой располагаются ключевые слова или словосочетания. Первый в 1958.

Этапы построения реферата человеком:

1) Подготовительный – референт читает текст и пытается понять и осмыслить его в целом.

2) Аналитический – референт выделяет основные смысловые единицы (предложения).составляет план.

3) Этап непосредственного построения реферата. Выделенные ранее смысловые единицы (их комбинации) располагаются в единый вторичный текст в соответствии с планом.

В качестве смысловых единиц реферата могут быть:

1) Полные (без изменения) ключевые предложения исходного текста.

2) Перефразированные ключевые предложения.

3) Предложения, составленные из ключевых слов или словосочетаний.

4) Предложения, обобщающие несколько предложений исходного текста.

Смысловые единицы аннотации:

1) Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами-реляторами типа: книга посвящена следующей проблеме…

2) Специальные предложения исходного текста, содержащие оценочные элементы или слова-клише (специализированные словесные штампы типа: недостаток заключается, ставится задача).

Компьютер должен уметь:

1) Находить в тексте ключевые слова, словосочетания, предложения.

2) Находить в тексте менее значимые единицы.

3) Составлять из текстовых единиц смысловые единицы реферата или аннотации.

4) Составлять из таких единиц текст реферата.

 

Методы:

1) Статистический. В нем ключевое слово – знаменательное слово текста, которое с учетом его всех синонимов встречается в тексте наибольшее число раз. Принадлежность слова к числу ключевых определяется специальным коэффициентом важности.

2) Позиционный. Основной критерий этого метода – место и позиция предложения в исходном тексте. 2 метода:

1. Метод заглавия. Основное содержаниетекста, выраженноетекстом заголовка, подзаголовка. Поэтому составляется словарь ключевых слов на основе знаменательных слов-заголовков.

2. Метод локализации (местонахождение). Работает на текстах узкой тематики. Идея: в таких текстах предложение о цели. Результат исследования занимает фиксированное место. Пример: патенты на изобретение – 1-2 предложения второго абзаца. Используются комплексно

3) Логико-семантический.исследуют структуру и семантику текста. Ключ – предложение с наибольшим функциональным весом, на величину которого влияют разные факторы (связь с левым и правым окружением, наличие в предложении семантически значимых слов, выделение жирным шрифтом). Эти методы используются комбинированно в расчете на получение более удовлетворительных вариантов.Перечисленные методы относятся к направлению квазиреферирования. Они основанына выделении из текстов наиболее информативных предложений, предающих основной смысл текста. Текст, полученный путем соединения готовых фрагментов, лишен гладкости, его трудно читать. Сегодня появились методы второго направления, основанные на выделении изтекстов наиболее информативной информации и создания (генерирования) с ее помощью новых текстов.Такое реферирование приближается к интеллектуальному реферированию. Эти системы могут работать сразу с несколькими источниками и с видеоинформацией.

Статистический. Задача: используя для выделения ключевых слов текста один из вариантов статистического метода, аименно……. коэффициент важности будет считаться Кважн = f*m/n*m. m–число абзацев, в которых встретилось слово……….

Составить алгоритм, позволяющий получить: а) аннотацию текста в виде релятора со следующими за ним ключевыми словосочетаниями текста. Ключевое словосочетание – ключевоеимя существительное,со стоящим перед ним определением, выраженное прилагательным или причастием. Б) словесный рефераттекста в виде последовательной цепочки ключевого предложения–предложения содержащие 3 и более ключевых слова.

Словоупотребление – цепочка символов, заключенных между 2 знаками пробела.

Словоформа – словоупотребление вне текста или предложения. Словоформы, имеющие одинаковое лексическое значение образуют слово (лексему).

Алгоритм решения задач:

1) ПК покаждому абзацу текста составляет алфавитно-частотный словарь.

2) Алфавитно-частотные словари объединяются в единыйраспределительный АЧС словоформ всего текста.

3) ПК проводит чистку АЧС, сжимает его до словаря потенциальных опорных слов:

1. Удаляется вся служебная и общеупотребительная лексика.

2. Объединяются все грамматические формы одного и того же слова.

3. Объединяются синонимы.

4. Удаляются лексические единицы, которые встретились только в одном абзаце.

4) Словарь потенциально ключевых слов делится на 2 части:

а) главных опорных слов;
б) второстепенных слов, что осуществляется на основе Кважн.

5) Строится аннотация. Используютсятолько главные опорные слова. Берутся слова-реляторы со следующими за ними ключ словосочетаниями.

6) Строится реферат. Просматривая исходный текст, ПК извлекает из него предложения, содержащие 3 и более главных или второстепенных опорных слов.

 

Машинный перевод

1. Типы перевода по степени автоматизации

2. Структура системы машинного перевода. По 1-ой технологии.

Перевод – вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке. При этом обеспечивается их смысловая эквивалентность.

Типы перевода по степени автоматизации:

1) Традиционный ручной перевод, выполняемый человеком

2) Автоматизированный перевод:

1. Комп выполняет перевод, а за справками обращается к человеку.

2. Перевод, выполняемый человеком с помощью ПК

I. В памяти ПК двуязычный словарь и текстовый редактор

II. Системы TM(Translation Memory)

В основе этих прог лежит принцип сбора и хранения фрагментов перведенных человеком текста на 2 языках. Хранятся вспец накопителе переводов и служат бесценным подспорьем при последующем выполнении переводов той же тематики. Для каждой тематики создается новый накопитель. Ими можно обмениваться. Около 10 программ по этой технологии. Лидер – Trados.

3) Машинный (автомат перевод). выполняемое ПК действие по преобразованию текста на одном естественном языке в текст на 2ом при сохранении эквивалентности содержания, также результат такого действия.

Первые теоритические разработки по МП относятся к 30-40 годам, но практическое применение теории автомат перевода в 50х. продемонстрирован в 54г.

Поскольку большинство слов имеют несколько значений, основная трудность при переводе – выбор нужного перевода, для чего человек исп контекст,, свой жизненный опыт. Кот практически невозможно формализовать и загрузить в ПК. Человек участвует в процессе перевода, предредактор, постредактор. Но на сегодняшний день 2 технологии маш перевода:

1. Машинный перевод, основанный на правилах языка (модель перевода человеком)

2. Статистический маш перевод. Основан на сопоставлении параллельных текстов больших объемов и вычислении наиболее вероятного перевода.

 

{Схема}

1) В процессе морфологического анализа слов предложений исхяз каждое слово получает наборы лекс-грам признаков (часть речи, род, число). ПК формирует эти наборы изавтомат словаря

2) Синтакс анализ ИЯ сводится к поиску основных членов предложения (подл, сказ), структуры предложения.

3) Синтакс синтез предложения ПЯ заключается в:

I. Создание предложения переводного языка определенно й синтаксической структуры, определяемой правилами ИЯ и ПЯ.

II. Замена слов ИЯ на их П эквиваленты.

4) Морф синтез каждого слова предложения ПЯ сводится к постановке слов в нужном числе в нужной форме.

Успех и эффективность систем во многом зависит отавтомат словарей. Для всех лекс единиц в закодированном виде указываются грам признаки и лекс-семант информация.

Исп 2 способа представления лекс единиц в словаре

I. В виде словоформ. В словарь заносятся всевозможные формы каждой лекс единицы и подаются гнездами.

II. В виде квазиосновы. (блок#...003).число.стоящие после #, условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе. Чтобы получить соответствующие формы слов.

Выбор типа лек сед зависит от:

1) Типа языка. флективные и агглютинативные(русск, нем). Используетсяквазиоснова. Языки аналитического типа (англ, франц) – словоформа.

2) От объема словаря и вычислительных ресурсов ПК.

3) Тип системы машинного перевода. Если для «информативного» (грубого) перевода –квазиоснова. А для профессионального перевода – словоформа.

Системы 1ой технологии опираются на готовые словари. Чтобы эти системы можно было бы применять профессионально, надо затратить много времени по настройке системы перевода для каждой тематики:

i. Подключить специализированные словари

ii. Добавить в пользовательский словарь незнакомые слова

iii. Выбрать правильный переводной эквивалент для слов с вариантами

iv. Подключить модуль ТМ

v. Получившийся перевод подвергнуть редактированию

Целесообразность использования таких систем дает выигрыш только при переводе огромных массивов однородной документации с большим количеством повторений. Преимущества:

1. Синтакс и морфологическая точность.

2. Стабильность и предсказуемость результатов.

3. Возможность настройки на предметную область.

Недостатки:

1. Трудоемкость и длительность разработки.

2. Необходимость актуализировать лингвистическую базу данных

3. «Машинный» акцент при переводе

Статистический машинный перевод. В 1949 разработаны принципы. Вторая волна - 90е IBM. 3-ая – 2-3года назад. Поиск наиболее вероятного перевода предложения с использованием данных, полученных из параллельных корпусов, сделанных человеком. Преимущества:

1) Легко построить, если есть двуязычный корпус.

2) Переносимость технологий на любые пары языков.

3) Лексическая гладкость

Ограничения и недостатки:

1) Ограниченность параллельных корпусов в природе и их качеств.

2) Плохо справляются с морфологией и синтаксисом.

3) Искажение информации.

Обе технологии имеют свои достоинства и недостатки. Они не решили задачу по получению качественного машинного перевода.э в настоящее время наметилась тенденция объединить оба метода.Promtболее двух лет ведет разработку в области применения статистических методов и уже появилась Гибридная Технология Перевода (HMT). Он позволяет:

1. Сохранить преимущества традиционной технологии (формирование синтаксически связного и грамматически правильного текста)

2. Получить преимущества статистического метода (быстрая обучаемость, поучение данных из параллельных корпусов в автоматическом режиме, гладкость текстов)

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-07-22 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: