Текстовый корпус как модель коммуникативной сферы. Текстовая структура Британского национального корпуса.

В лингвистике уже разработаны принципы построения текстовых корпусов как коммуникативных моделей (Британский национальный корпус, Национальный корпус русского языка и др.).

В настоящее время начата разработка особого, лингвокультурологического, типа корпусов, включающих, наряду с лингвистическими, также и нелингвистические данные. Корреляция таких данных в составе лингвокультурологического корпуса дает возможность системно представить определенный тип коммуникации, моделировать соответствующую разновидность общения как целостное культурно-коммуникативное образование.

Иллюстрацией лингвокультурологического корпуса является создаваемый в Саратовском государственном университете им. Н.Г. Чернышевского мультимедийный диалектологический корпус (СДК). В его основу положен принцип синтеза лингвистических и культурологических данных.

Центральное место в лингвокультурологической диалектном корпусе принадлежит репрезентативному массиву текстов на диалекте, отражающих важнейшие типы диалектной речи (речь бытовую, фольклорную, речь в условиях официального, обрядового общения); различные формы речи (диалог, полилог, монолог); разнообразную тематику сельского общения; социальную дифференциацию носителей говора (по полу, возрасту, профессии, уровню образования). Текстовая база корпуса содержит не только ценные лингвистические данные, но и уникальные сведения о судьбах людей, об истории родного села, края и страны в восприятии и оценках сельских жителей.

Использование текстовых корпусов обеспечивает новый уровень лингвистических исследований, опирающихся на репрезентативный, значительный по объему речевой континуум, в наиболее полной мере учитывающих функциональные и статистические характеристики языковых явлений. «Впервые в истории, – справедливо отмечают О.Н. Лагута и М.К. Тимофеева, – реально вырисовывается перспектива изучать «язык в действии», о чем некогда говорил Вильгельм фон Гумбольдт, а позже – И.А. Бодуэн де Куртенэ, А.А. Потебня, Л.В. Щерба и другие» [Лагута, Тимофеева 2007: 114].

В статье В.А. Плунгяна «Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики» обосновывается мысль о том, что появление НКРЯ «не просто дало в распоряжение лингвистов новый мощный инструмент анализа фактов языка – оно в определенной степени изменило теоретические приоритеты и отчасти даже взгляды на то, чем является язык и какие задачи изучения языка являются наиболее важными» [Плунгян 2008: 7-8]; «в настоящее время корпус – это не просто дань техническому прогрессу или более удобный инструмент для поиска примеров; это именно примета новой идеологии изучения языка, для которой язык – вообще говоря, и есть корпус…» [Там же: 12], а «текст… главный объект теоретической рефлексии» [Там же: 14].

Текстовый корпус позволяет получить данные, недоступные для наблюдения при обращении к другим, традиционным, источникам, ставить принципиально новые задачи, ранее практически невыполнимые из-за их трудоемкости. Так, объемный текстовый корпус может послужить надежным источником сведений о типичных для языковой единицы семантических и грамматических позициях, о частотности ее употребления, о характерных для нее прагматических и дискурсивных условиях функционирования, о динамике языковых явлений. Ср., например, приведенные В.А. Плунгяном некоторые конкретные вопросы, данные по которым могут быть добыты исследователем на материале НКРЯ «простым нажатием кнопки»:

Какой из приставочных коррелятов – прореагировать, отреагировать, среагировать – употребляется в современном русском языке чаще? К каким контекстам тяготеет каждый из этих приставочных коррелятов (например, какой из них охотнее сочетается с наречием быстро)? В какой последовательности они появляются в современном языке – одновременно или по очереди? Различается ли частота их употребления в разные периоды? Сбор материала для ответа на подобные вопросы в отсутствии корпуса занял бы месяцы или годы [Национальный… 2005: 13-14]. Иначе говоря, текстовый корпус позволяет ставить и успешно решать задачи, связанные с «микроэволюцией» языка на протяжении одного-двух столетий: наблюдать малозаметные изменения сочетаемости и значений слов, изменения частотности различных конструкций или частотности употребления лексических и грамматических вариантов, регистрировать появление или угасание отдельных явлений языка.

Опора на корпусные данные значительно повышает объективность, а следовательно, научный статус грамматических и словарных описаний языка. «Теперь, – справедливо отмечают А.Т. Хроленко и А.В. Денисов, – подлинно научные описания грамматического строя языков, а также авторитетные академические словари – практически все без исключений – должны составляться на основе корпусов этих языков» [Хроленко, Денисов 2007: 50].

Сотрудниками Института русского языка им. В.В. Виноградова РАН на основе НКРЯ уже создан ряд экспериментальных словарей. В настоящее время на сайте Института (https://dict.ruslang.ru/) (Гольдин сказал посмотреть эти словари и сам НКРЯ!) размещены следующие словари этой серии: Е.А. Гришина.

Грамматический словарь новых слов русского языка; О.Н. Ляшевская. Новый частотный словарь русской лексики; Г.И. Кустова. Словарь русской идиоматики. Сочетания слов со значением высокой степени; Е.Ю. Калинина. Словарь глагольной сочетаемости непредметных имен русского языка.

Апелляция к текстовым корпусам национальных языков целесообразна в практике преподавания филологических дисциплин, в том числе в процессе изучения данного языка как иностранного. Оптимизируя работу лингвиста в исследовании семантики языковых единиц, в оценке употребительности тех или иных семантических вариантов и языковых выражений, корпуса текстов эффективно используются при проведении лингвистических экспертиз.

Предпочтение, которое отдается современной лингвистикой корпусно-ориентированным исследованиям, объясняется в целом тем, что корпус «позволяет изучать действительно существующие в языке, а не мнимые явления» [Плунгян 2008: 17].

Слово «национальный» — своего рода термин, отражающий скорее семантику английского слова «national», чем русского слова «нация». Впервые это определение появилось в названии Британского национального корпуса (British National Corpus, BNC), созданного в 1990-е годы в Великобритании специалистами лексикографами; это не самый первый электронный корпус, созданный в мире, но один из лучших, крупнейших и наиболее известных. Для британцев слово «национальный» означало в первую очередь «характеризующий британский национальный вариант английского языка» (в отличие от американского, австралийского и т. п.), но поскольку этот корпус очень быстро стал практически эталоном корпуса вообще, то значение слова «национальный» незаметно изменилось. Национальным корпусом стали называть просто самый большой и представительный корпус, характеризующий язык данной страны в целом. Самым крупным в настоящее время является также уже упомянутый выше Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически.

Британский национальный корпус (BNC – British National Corpus) – один из наиболее известных корпусов английского языка. Один из первых национальных корпусов, по образцу которого создавались многие современные корпуса различных языков. Объем корпуса 100 млн слов. Корпус включает метатекстовую и морфологическую разметку. Корпус сбалансирован по жанрам. В нем представлены письменная речь - 90%, включая самые разнообразные по жанру, стилю и тематике тексты, например, газетные, журнальные тексты, письма, школьные эссе и т.п., и устная - 10%, Корпус характеризуется использованием полных текстов. Это синхронный корпус общего назначения. Он отражает состояние британского английского конца ХХ - начала ХХI веков.

С помощью корпусного менеджера XAIRA можно искать конкретную словоформу; все формы одной лексемы по лемме (по исходной форме слова); словосочетания, включая разрывные; выбранные грамматические формы лексемы (например, clean – только как прилагательное, но не как глагол); осуществлять более сложный поиск с использованием специального языка (CQL – язык запроса к корпусу); искать более сложные конструкции с использованием специального конструктора запросов; получать информацию об источниках примеров, информацию об относительной частоте, информацию о частоте коллокаций.

см. корпус https://www.natcorp.ox.ac.uk/

https://www.ruscorpora.ru/corpora-intro.html

What is the BNC?

The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of British English from the later part of the 20th century, both spoken and written. The latest edition is the BNC XML Edition, released in 2007.

The written part of the BNC (90%) includes, for example, extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text. The spoken part (10%) consists of orthographic transcriptions of unscripted informal conversations (recorded by volunteers selected from different age, region and social classes in a demographically balanced way) and spoken language collected in different contexts, ranging from formal business or government meetings to radio shows and phone-ins.

The corpus is encoded according to the Guidelines of the Text Encoding Initiative (TEI) to represent both the output from CLAWS (automatic part-of-speech tagger) and a variety of other structural properties of texts (e.g. headings, paragraphs, lists etc.). Full classification, contextual and bibliographic information is also included with each text in the form of a TEI-conformant header.

Work on building the corpus began in 1991, and was completed in 1994. No new texts have been added after the completion of the project but the corpus was slightly revised prior to the release of the second edition BNC World(2001) and the third edition BNC XML Edition (2007). Since the completion of the project, two sub-corpora with material from the BNC have been released separately: the BNC Sampler (a general collection of one million written words, one million spoken) and the BNC Baby (four one-million word samples from four different genres).

Full technical documentation covering all aspects of the BNC including its design, markup, and contents are provided by the Reference Guide for the British National Corpus (XML Edition). For earlier versions of the Reference Guide and other documentation, see the BNC Archive page.

Текстовый корпус как модель коммуникативной сферы. Текстовая структура Британского национального корпуса.

Поиск по сайту