Извлечение смысловой информации из содержания текста, словаря автора, референциальной среды




Извлечение смысловой информации из «формы» текста

Свои достоинства и недостатки! ®

Из содержания текста

Документально-фактологический материал

Сравнение проблематики, сюжета и тематики с текстами-образцами

Совпадение/несовпадение семантики и формы мелких сегментов (избирательно-стилистический подход)

Ненадежность «содержательных» методов

Возможность авторской мистификации, стилизации

Затруднительность количественной оценки

! Зато именно документально-фактологические признаки опредлеляют бесспорность авторства основного количества произведений.

Из формы текста

Палеографический и графологический анализ

Квантитативно-лингвистические методы

! ряд преимуществ перед историко-литературными методами, строящимися обычно на ряде допущений, надежность которых часто бывает сомнительной.

Квантитативные методы

Сопоставление стилевых параметров сомнительного текста с аналогичными характеристиками текстов-образцов

Уровни текста от графики/фонетики до композиции. Центральный уровень – лексический.

Лексическая статистика.

Примеры квантитативных методов

Н. А. Морозов (1915 г.):

Идея «лингвистических спектров».

Изучение частотности служебных слов в классических текстах.

Частные наблюдения Морозова

Частица “было” (например, чуть было) - только у Пушкина;

“близ” - только у Тургенева (у других “около”);

“ведь” - отсутствует у Карамзина и Загоскина;

“вдруг” и “даже” редки у Толстого;

“еле” - только у Гоголя;

“заместо”- только у Тургенева;

“ибо”- еще употребляется часто Карамзиным и Гоголем, изредка Пушкиным, но уже совсем отсутствует у Толстого, Тургенева и Загоскина

И т.п.

Спектры

Предлоги В, НА, С

В произведениях Пушкина (на 1000 слов)

Спектры

Предлоги В, НА, С

В произведениях Гоголя

(на 1000 слов)

Вопрос о стилизации, мистификации

Поиск характеристик текста, которые вряд ли мог учитывать автор.

А. Л. Гришунин: анализ дублетных яз. средств (нежели – чем, надо –надобно, деепричастия на и -вши и проч.).

Множественность характеристик при анализе.

Г. В. Ермоленко (Анонимные произведения и их авторы. Минск, 1988).

Рассказ Ю. Олеши «Ангел» и др. тексты. 4 методики:

Анализ высокочастотной лексики: союзы, предлоги, частицы, местоимения.

анализ низкочастотной лексики: взвизгивать, зад, квадратик (Ю. Олеша).

выявление речевых параллелей (дублетов): грамматические, лексические, фонетические варианты Иванович – Иваныч, дверь – двери, много лет (тому) назад, может быть – быть может, калоши – галоши.

Анализ покрытия текста нейтральными (эмоционально и стилистически не окрашенными) словами.

Милов Л. В. и К° (От Нестора до Фонвизина: Новые методы определения авторства. М., 1994)

Атрибуция древнерусских лит. памятников и анонимных произведений XVII-XVIII вв.

Основные авторы:

Болгарский просветитель Климент Охридский

Летописец Нестор

Митрополит Илларион

Иван Грозный

Андрей Курбский

Денис Фонвизин

Проведен морфологический и синтаксический анализ.

Милов Л. В. и К°: морфолого-синтаксические методы

Построение и анализ графиков фразовых структур

Выявление закономерностей между структурами

Дистрибуция классов слов — существительных, прилагательных и т.д.

Выявлено порядка 150 признаков текстов

Методика Дмитрия Хмелева (лингвоанализатор)

Самый любопытный ввиду абсолютной «формальности» метод.

Буквы текста как реализация марковских цепей.

Матрица буквосочетаний.

Оценка вероятности авторства

Страница лингвоанализатора на сайте «Русская фантастика»

О разной степени формализации языка

Чем больше степень формализованности метода, тем лучше он будет работать при атрибуции текста. Сравним:

Буквы и буквосочетания

Грамматические признаки слов, синтаксические конструкции

Лексемы (служебные слова/местоимения/знаменат. лексика

Элементы композиции

S. Bernhardsson, L. E. Correa da Rocha and P. Minnhagen, 2009

(The meta book and size-dependent properties of written language // New Journal of Physics. 2009. № 11.)

Сопоставление произведений Т. Харди, Г. Мелвилла и Д. Г. Лоренса на предмет снижения встречаемости слов, использованных автором один раз, по мере развертывания текста.

Пример из
[Bernhardsson et al., 2009]

Форма и содержание

Сила таких моделей, может быть, и заключается в полном отходе от рассмотрения содержательных аспектов текста.

Вряд ли, однако, по этим графикам можно судить о семантике текстов и в целом об идиостиле Томаса Харди или Германа Мелвилла.

Атрибуция «Тихого Дона» и др. произведений Шолохова

Шолоховеды и «антишолоховеды»: история вопроса.

Содержательные моменты и спекуляция.

Атрибуция «Тихого Дона»



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: