Лингвостатистический метод.




Для лингвистического исследования актуальным является философское положение о том, что предмет, не отра­женный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику.

Категория количества в языке связана с установлением количе­ственных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода ко­личественных изменений в качественные служит важнейшим ус­ловием выявления в нем его закономерностей. В связи с этим ос­новной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики.

Возможность применения лингвостатистического метода в языкознании обусловлена природой и сущностью языка. Язык как система представляет собой совокупность взаимо­связанных дискретных (членимых) единиц, обладающих ко­личественными характеристиками.

Количественные характеристики языковых единиц (и их эле­ментов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами обра­зует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами.

Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем.

Лингвостатистический метод применим для изучения как языка, так и речи. Однако, количествен­ные характеристики в системе языка не тождественны их количе­ственным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно. Однако если они регулярно повторяются при одних и тех же условиях, то их все же можно объяснить, раскрыть закономерности появления в речи того или иного элемента с помощью лингвостатистики.

Основные понятия лингвостатистики.

Согласно философской категории всеобщей связи, между явле­ниями языка и речи существуют определенные связи и зависимо­сти. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует дру­гoe определенное явление. Такого же рода зависимость присуща многим физическим явлениям. Повышение температуры — жидкое состояние воды; понижение температуры — ее кристаллизация. Функциональные зависимости дают точные определения установ­ленным закономерностям, то есть могут быть сформулированы как закон. Например: «Вода при температуре ниже О º С превращается в лед».

При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Например: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависи­мость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова.

Такие нестрогие соответствия между качественной и количе­ственной характеристикой языкового явления получили назва­ние корреляций. Термин корреляция имеет два значения: 1) обще­научное — «соотношение, соответствие, взаимосвязь, взаимоза­висимость явлений» и 2) в лингвистической статистике — такая связь между языковыми явлениями, при которой одно из явле­ний входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления.

В ма­тематической статистике существует несколько видов корреля­ции. В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопро­вождается возрастанием или убыванием значений другого при­знака. В такой линейной корреляции могут находиться, напри­мер, лексико-семантические варианты слова и частота встречае­мости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливает­ся так называемая положительная корреляция. Если же при возра­стании значений одного признака значения другого признака убы­вают, то налицо отрицательная корреляция.

Число, показывающее степень тесноты корреляции, называ­ется коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции за­ключается от нуля до единицы со знаком «плюс» или «минус»: -1 ← 0→ +1. Если между исследуемыми признаками нет никакой статистической зависимости, величина коэффициента будет равна нулю или близка к нему. И наоборот, сильную зависимость между наблюдаемыми явлениями следует констатировать тогда, когда величина коэффициента приближается к 1 или -1. Величи­на коэффициента здесь указывает на степень связи между наблю­даемыми языковыми явлениями, а его знак (плюс или минус) — на характер самой корреляции. Как же исчисляется коэффициент корреляции?

Статистика располагает несколькими способами. В лингвисти­ке обычно используют для этого формулу:

r = Σ (x i - x)(у i - у)

√ Σ (x i - x) 2 i - у)2

 

где r - коэффициент линейной корреляции; Σ - суммирование получаемых в результате той или иной операции величин; х i - значение первого знака; у i - значение второго знака; х - средняя (теоретическая) величина первого признака; у - средняя вели­чина второго признака. Величины х i - х и у i - у обозначают от­клонения полученных нами величин от средних.

Покажем технику вычисления r на конкретном примере. Пред­положим, что мы произвели выборку десяти репрезентаций одного и того же явления в текстах двух авторов (А 1 и А 2) и получили сле­дующие частоты их встречаемости:

Наблюдаемое явление Выборка-1 Выборка-2 Всего
       
       
       
       
       
       
       
       
       
       
Всего      

 

По формуле исчисления r находим х и у:

х = 275:10 = 27,5, а у = 325:10 = 32,5.

Теперь произведем действия в числителе: (5 - 27,5) (10 - 32,5) +-(10 - 27,5) (15 - 32,5) + (15 - 27,5) (20 - 32,5) + (20 - 27,5) (25 - 32,5) + (25 - 27,5) (30 - 32,5) + (30 - 27,5) (35 - 32,5) + (35 - 27,5) (40 - 32,5) + (40 - 27,5) (45 - 32,5) + (45 - 27,5) (50 - 32,5) + (50 - 27,5) (55 - 32,5) = 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5.

Соответствующие действия в знаменателе представим подоб­ным же образом: 1) в первой выборке: 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5;

2) такой же результат получим и по второй выборке — 2062,5; 3) √ 2062,5 х 2062,5 = 4253906,2.

Коэффициент r = + 062,5: 4253906,2 = + 0,0004848.

Коэффициент показывает, что корреляция между наблюдае­мыми выборками крайне слабая, хотя и положительная.

Однако окончательные выводы делать рано. Как полагает математическая лингвистика, коэффициент корреляции — величина в известной степени случайная. Для определения необходимой степени надеж­ности получаемых величин пользуются понятиями «доверительная вероятность» (коэффициент доверия) и «уровень значимости» (коэффициент надежности). Под коэффициентом надежности принято считать 95%, когда вероятность допущенной ошибки равна 5%. Кроме того, существует еще уровень значимости — величина, дополняющая коэффициент надежности до 1. Так, при доверительной вероят­ности р = 0,95 уровень значимости 1 - р = 0,05. Именно при таком уровне значимости результаты лингвистического анализа считаются достаточно надежными.

Уровень значимости и обусловливаемая ею доверительная ве­роятность определяется исследователем для установления пара­метров случайных величин. Соответствие между ними определя­ется по специальным статистическим таблицам (они прилагают­ся в учебниках и справочниках по статистике).

Итак, в лингвистике установлено: частота появления тех или иных языковых элементов в речи подчиняется определенным стати­стическим законам (закономерностям).

Статистические законы вероятностны потому, что они лишь предсказывают свойства языковых элементов. Однако они про­гнозируют вероятность появления наблюдаемых свойств только в известном диапазоне (от — до), поскольку используются каждый раз в новом количественном измерении (хотя и в пределах извест­ной средней величины). Статистические законы распространяются на те языковые явления, которые испытывают влияние множества факторов (причин). Такие факторы не только многочисленны, но и многовекторны (разнонаправлены). Они взаимодействуют между собой неоднозначно, и поэтому результаты их взаимного воздей­ствия колеблются вокруг некой средней величины.

Располагая известной гипотезой о действии некоторого ста­тистического закона, можно говорить о вероятности соответствую­щего языкового явления. В нестрогом терминологическом упот­реблении вероятность представляет собой долю исследуемого эле­мента (явления) в ряду однородных, долю, ожидаемую по имеющейся у исследователя гипотезе. Исчисляется вероятность (Р) отношением числа появлений изучаемого явления в речевом по­токе (а) к числу всех других явлений (b) по формуле Р= а: b.

Сама вероятность закономерна. Действие статистического за­кона выражается именно в сохранении установленной ранее ве­роятности. Измерение вероятности языкового явления ведет к изменению статистического закона.

Наблюдения за действием статистических законов, то есть за ве­роятностью языкового явления, осуществляются при помощи по­нятий «частота», «средняя частота», «отклонение от средней часто­ты».

Простейшим из них является «частота» языкового элемента (или явления), под которым понимается число его появлений в на­блюдаемом речевом отрезке. Это так называемая выборочная часто­та, то есть абсолютное (не обработанное) количество употреблений изучаемого элемента в тексте. Выборочные частоты в абсолютном выражении недостаточно информативны, поскольку не способ­ны дать достоверное представление о вероятности изучаемого яв­ления (элемента) и тем более не позволяют сформулировать ста­тистический закон. Так, зная, что в текстах одинакового объема В. Ерофеева жаргонизмы встречаются 800 раз, а в тек­стах Б. Акунина — 400, нельзя вывести вероятность жаргонизмов в современной художественной прозе и сформировать соответ­ствующий статистический закон.

Л-ингвостатистический метод задал новые стимулы для развития лингвистической типологии. Впервые идею количественного исследования типологически раз­ных языков высказал Джозеф Гринберг. Сравнивая отрывки текста одной и той же длины, составленные на разных языках, можно установить степень сходства или различий в строении этих языков. Об этом свиде­тельствуют количественные отношения между словами обследуе­мых текстов и компонентами их морфологического строения.

Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количествен­ное описание подъязыков науки и техники используется для ав­томатической обработки языковой информации (создания инфор­мационно-поисковых систем и программ для машинного рефе­рирования текстов), а также в методике преподавания языков.

Наиболее распространенными приемами лингвостатистического методаявляются:

А) Лексикографическая статистика (закон Ципфа — Мандельброта).

Лексикографическая статистика -— это теория и практика состав-ления частотных словарей. Составление частотных словарей поставило ряд практических и теоретических задач. Было замечено, что при достаточно боль-шом количестве текстов около 80% его занимают две тысячи самых употребительных (частотных, активных) лексем. Изучая отношение частоты и ранга (порядкового номера в частотном словаре), американский лингвист Джордж Ципф в 1949 г. установил прямую их зависимость: r х f = с (то есть ранг х частоту = слово). В 1954 г. американский математик Бенуа Мандельброт предложил уточненную формулу: Рr = Р (r + р) -b, где r — номер слова в списке по убывающим частотам, Рr — относительная частота (вероятность), а Р, р, b — константы данного текста.

Более детальная проверка закона Ципфа — Мандельброта об-наружила его относительность: константы оказались зависимыми от стиля, жанра, эпохи и т. п. Так, Джордж Юл определил, что для атрибуции текста необходима совокупность разных характеристик, а Ревекка Марковна Фрум-кина доказала, что закон Ципфа действует вообще лишь в интервале 15≤ r ≤ 1500.

Б) Статистические параметры стилей и установление авторства.

Статистические методы используются также для изучения употребительности языковых фактов с точки зрения их нормативности, принадлежности стилю языка и отдельного автора. Как и при обычном количественном исследовании, выборки должны быть однородными и одинакового объема (или длины); однородность выборки определяется интуитивно или по социолингвистическим соображениям.

Если при количественной методике исследователь оперирует абсолютными частотами (представляя их иногда как процентное соотношение), то при лингвостатистической методике он оперирует средними частотами и частотностью (долями), понимаемой как отношение наблюдаемой частоты к длине.

Статистическая методика заменяет полное обследование текста серией выборок-наблюдений (выборочная частота обозначается зна-ком «х» с показателем выборки: х 1, х 2 ; наблюдение - знаком «n i ».

Средняя частота есть отношение суммы (знак суммирования – «Σ ») всех выборочных частот кчислу выборок:

Σ (х 1+ х 2 + х n)

х = n i

 

Средняя частота отличается от выборочных частот, поэтому стати-стическая интерпретация предполагает обобщение отклонения средней частоты от выборочных частот. Наиболее употребительная (усредненная) мера отклонения от средней частоты в математической статистике и теории вероятностей называется дисперсией (лат. dispersio «отклонение») и обозна-чается буквой «δ». Дисперсия есть среднее арифметическое из квадрата отклонений величин хi от их среднего арифметического, -то есть от средней частоты:

− −

δ = √ ∑ (хi –х)2 или δ2 = ∑ (хi –х)2

k k

 

Среднее квадратичное отклонение есть квадратный корень из дисперсии.

Статистически изучаются не только выборочные частоты, но и частотные доли. Доля как отношение наблюдаемой частоты к длине выборки определяется при помощи формулы вероятности: р = m:n, где р — доля. Статистическое сравнение долей изучается при по-мощи вычисления квадратичного отклонения доли, критерия хи-квадрат и критерия Стьюдента.

Распределение частот и частотных долей в тексте того или иного автора дает возможность выявить постоянные (константные) особенности текста, а также отклонения от типичного для данного стиля и жанра — индивидуальные особенности, касающиеся употребительности отдельных единиц и их длины.

В) Теория информации и измерение текста.

Теория информации интересуется не содержательной стороной передачи и хранения информации, а ее статистической структурой. -Текст можно изучать при помощи теории информации как статистическую структуру текста, его измерение. Статистическая структура понимается как частота появления в со-общении сигнала (символа). Это будет вероятность, обозначаемая знаком «р». Сочетания сигналов - условная вероятность - обозначается знаком «рi ». При многократном повторении сигнала очень важно опре-делить количество информации, передаваемой сигналом. Количество информации приравнивается к мере недостающей информации, то есть к величине неопределенности. Такое количество информации полу-чило название энтропии; она характеризует ситуацию перед полу-чением сигнала в большей степени, чем сам сигнал.

Неопределенность ситуации (а следовательно, и количество информации) увеличивается с увеличением числа сигналов; при одинаковом числе сигналов не-определенность наибольшая в том случае, если вероятность появле-ния всех сигналов равновероятна. Величина неопределенности (она обозначается знаком Н) связана с вероятностями по формуле:

n

Н= — р(i) log2 р(i)

i = 1

 

где вероятность сигнала i обозначена через р (i); i принимает значение 1,2...n; — знак суммы.

Итак, количество информации рассчитывается по формуле:

[p (1) log2 p (1)+p (2) log2 p(2)…+p (n) log2 p (n). ]

В русском языке количество информации, например в фонеме, равно 4,76 ед.

Для сравнения различных сообщений есть понятие относи-тельной энтропии и избыточности. Относительная энтропия пред-ставляет собой отношение действительного количества информации (Н ) в сигнале к максимальному количеству информации сигналов из возможных при данном числе сигналов: максимальная энтропия (Hмакс.) равна количеству информации при равновероятности всех сигналов 0 = logn). Избыточность (R) равна разности между едини-цей и относительной энтропией:

R = 1 – Н отн.; Н отн. = Н : Н0.

Например, русский «телеграфный» алфавит содержит 32 знака. Если все буквы считаются равновероятными 0), то информация, содержащаяся в одной букве, будет: Н0 = log 32 = ~ 1,505 десят. ед.

Подсчитано, что средняя информация, содержащаяся во фразе второго порядка вероятности, то есть при наличии двух предшествующих букв (по-, ду-, на-, эн-, об- и т. п.), равна 0,905 (Н3). Относительная энтропия может быть определена:

Н : Н0 = Н 3 : Н0 =1 – 0,905: 1,505 = ~ 0,6.

Следовательно, избыточность букв для русского языка равна не менее 0,4:

R = 1 – Н 3 : Н0 = 1 – 0,905: 1,505 = ~ 0,4.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-01-08 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: