Аналитический обзор программных средств для аннотирования текста




Учебные корпуса: определение и назначение

В связи с развитием технических средств появилась возможность более эффективных лингвистических исследования разного рода на базе корпусной лингвистики. Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык.

Под учебным корпусом (Learner Сorpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition).

Такого рода корпусы, например, могут быть использованы для лингвистического анализа на предмет выявления лексических или синтаксических ошибок при освоении иностранного языка. Такой подход помогает установить частотность тех или иных типов языковых ошибок, характерные контексты, что необходимо для выработки планов и методических приемов для дальнейшей коррекции в обучении языку.

На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Значительных успехов в этой области достигло изучение английского языка. Международный Учебный Корпус Английского языка (The International Corpus of Learner English) является первым и самым известным учебным корпусом.

Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус (The Cambridge Learner Corpus). Как часть Кембриджского Международного Корпуса, Кембриджский Учебный Корпус это огромная коллекция примеров английского языка, который пополняют изучающие всего мира.

Первым учебным корпусом устной речи стал корпус LINDSEI. Он является разговорной копией ICLE.

Изучив интернет ресурсы, нами была составлена таблица существующих на сегодняшний день учебных корпусов (см. приложение 3). В данную таблицу вошли учебные корпуса следующих языков: английского, немецкого, французского, испанского и итальянского, также были включены многоязычные корпуса. Таблица содержит следующие данные: имя корпуса (ссылка на корпус или сайт с описанием данного корпуса), изучаемый язык, родной язык, типы текстов и жанры, уровень владения языком, количество слов в корпусе, информация об авторах и доступе корпуса (если свободный доступ, то ссылка на корпус). Всего таблица содержит 80 корпусов. На рисунке 1 представлен фрагмент таблицы.

На основе данной таблицы была составлена сводная таблица для сравнения количества двуязычных учебных корпусов (см. приложение 2). В данную таблицу вошли следующие поля: изучаемый язык, родной язык и название корпуса.

Распределение по количеству корпусов для каждого изучаемого языка представлено в виде диаграммы.

Из диаграммы видно что, больше половины учебных корпусов создается для изучения английского языка, т.к. он является международным языком. Все остальные языки изучаются значительно меньше по сравнению с английским в силу не такой большой распространенности. Что же касается русского языка, то нами не найдено ни одного учебного корпуса.

Аналитический обзор программных средств для аннотирования текста

Практически все учебные корпуса являются лингвистически размеченными.

Лингвистическая разметка подразумевает присвоение словам особых кодов. Каждому коду соответствует определенный набор грамматических признаков, характеризующих данное слово. Коды также известны как тэги (от англ. tag – ярлык, метка), а сам процесс приписывания словам тэгов соответственно имеет название тэггинг (от англ. tagging).

Типы разметки, которые может содержать корпус, можно условно подразделить на лингвистические и внешне лингвистические. К последним относятся:

· разметка, отражающая особенности форматирования текста (заголовки, абзацы, отступы и т.д.);

· разметка, касающаяся сведений об авторе и тексте. Причем сведения об авторе могут включать не только его имя, но также и возраст, пол, годы жизни и многое другое, а сведения о тексте обычно содержат, кроме названия, еще и язык, на котором он написан, год и место издания и т.д.

Наличие подобной информации позволяет значительно детализировать поиск в текстовых базах данных и, кроме того, предоставляет средства идентификации соответствующего документа.

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

  • токенизация (разбиение на орфографические слова);
  • лемматизация (приведение словоформ к словарной форме).

Также важным этапом является морфологический анализ. В иностранных источниках употребляется термин part-of-speech tagging, дословно – частеречная разметка, в действительности она включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического.

Синтаксическая. Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих.

Семантическая. Хотя для семантической, как и для других видов разметки, нет стандартной формы, чаще всего для ее представления используют код, состоящий из букв и цифр или только цифр, в котором первая буква или цифра обозначает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специализирующие его значение.

Анафорическая. Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. Просодическая. В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию.

Аннотирование корпусов осуществляется программными средствами. Во-первых, это экономичнее с точки зрения временных и трудозатрат, чем если бы разметка проводилась вручную. Во-вторых, что более важно, это связано с поиском решений в области автоматической обработки текста.

К числу известных и наиболее часто используемых программ при аннотировании корпусов относятся такие программы как AntConc, WordSmith, MonoConc Pro и CATMA.

AntConc является бесплатной, мультиплатформенной программой для проведения корпусных лингвистических исследований и управления данными..

Конкорданс. Данный инструмент показывает результаты исследования формата KWIC (ключевое слово в контексте). Он позволяет увидеть, как слова и фразы обычно используются в разных контекстах.

График конкорданса. В этом инструменте все адреса для каждого элемента поиска представлены в виде “штрих-кода”, указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент.

Просмотр файлов. В любое время целевой файл можно посмотреть в оригинальной форме, используя меню «просмотр файлов». Это позволяет более подробно исследовать результаты, полученные в других инструментах AntConc.

Кластеры. Инструмент кластеры используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна.

Расположение. Инструмент «расположение» показывает расположение элемента поиска.

Список слов. Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе.

Список ключевых слов. В дополнение к созданию списка слов, с помощью AntConc можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми (или редкими) в целевых файлах.

WordSmith Tools программа управления инструментами. Она показывает и изменяет текущие значения по умолчанию, управляет выбором текстовых файлов, а также вызывает различные инструменты. Программа состоит из трех инструментов: Concord, KeyWords, WordList.

Concord это программа, которая создает конкорданс, используя DOS, Text Only, ASCII или ANSI текстовые файлы.

KeyWords

Это программа для идентификации "ключевых" слов в одном или нескольких текстах.

WordList

Данная программа создает списки слов на основе одного или более ASCII (американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов) или ANSI (Америка́нский национа́льный институ́т станда́ртов) текстовых файлов. Слова автоматически строятся и в алфавитном порядке и по частоте, и, при необходимости вы можете создать список слов по индексу.

MonoConc Pro быстрая программа конкорданс (текстовый поиск) с отличным пользовательским интерфейсом. Он используется для лингвистического или языкового преподавания и изучения языков (ESL). Наряду с предоставлением KWIC результатов конкордансом, программное обеспечение производит также информацию о списках слов и словосочетаний. Программа проста в использовании, хотя и поставляется с целым рядом мощных функций, таких как контекстный поиск, поиск по регулярному выражению, частеречный поиск по тегам, сочетаемости слов и корпус сравнения.

CATMA является практическим и интуитивно понятным инструментом для литературоведов, студентов и других сторон, имеющих интерес к анализу текстов и литературным исследованиям.

Основанная на известной программе «Usebase», данная программа предоставляет разметку и функциональный анализ, содержащихся в двух ее составляющих: Tagger и Analyzer.

В отличие от структурной разметки, которая в большинстве случаев может быть выражена более или менее фиксированным набором тегов, разметка, которая интерпретирует смысл текстовых элементов - так называемых "герменевтической разметкой" - должна быть гибкой и расширяемой, но в то же время отвечать требованиям стандартов с тем чтобы дать возможность взаимодействию инструментов.

Изучив все эти продукты, можно сделать вывод, что наиболее удобным и простым в использовании является программное средство AntConc. Благодаря таким инструментам как конкорданс, график конкорданса, кластеров, инструмента просмотра файлов, спискам ключевых слов и некоторым другим инструментам, программа дает возможность проведения подробных корпусных лингвистических исследований. Ко всему прочему программа является бесплатной.

Классификация ошибок

Учебные корпуса особенно полезны, когда они размечены на ошибки, т.е. когда все ошибки в корпусе аннотированы с помощью стандартизированной системой разметки.

Разметка ошибок очень трудоемкая и занимающая много времени задача. В тоже время, аннотированный корпус обеспечивает бесценными средствами в исследовании изучаемого языка.

Для исследования любого учебного корпуса обычно рассматриваются способы классификации ошибок, выбирается методика их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методика количественного автоматизированного подсчета ошибок по типам, что позволяет провести их всесторонний лингвистический и лингводидактический анализ.

Единой классификации для анализа учебных корпусов нет. Это можно увидеть на примерах разных учебных корпусов. Например, арабские лингвисты Дулай, Берт и Крашенпредлагают две основные описательные таксономии ошибок:

· ошибки, основанные на языковых категориях (общие, такие как морфологические, лексические и грамматические и более конкретные, такие как вспомогательные средства, пассивные и предлогов);

· ошибки с упором на изменение поверхностной структуры (например, опущение или нарушение порядка слов).

В таблицах 1 и 2 представлены примеры фонетических и орфографических ошибок на примере учебного корпуса Лонгман.

В приложении 1 представлена классификация ошибок Учебного Переводного Корпуса MeLLANGE. В приложении 2 - классификация ошибок Корпуса Текстов Петербургских Школьников.

Изучив, таким образом, классификацию нескольких корпусов, мы пришли к выводу, что многие авторы корпусов делят ошибки на языковые и содержательные. В группе языковых ошибок можно выделить следующие классы: синтаксические, лексические, морфологические, грамматические, орфографические. В группе содержательных ошибок можно выделить такие классы как порядок слов, тавтология, опущение слова или, наоборот, прибавление ненужного слова и др.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-11-02 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: