Пусть некоторый исторический период от года А до года B в истории одного государства описан в каком-то достаточно обширном погодном тексте Х (хронике, летописи и т.п.), т.е. текст разбит (или может быть разбит) на куски - "главы" Х(t), каждый из которых описывает один свой год t.
Подсчитаем объем каждого такого куска, например, число слов (или число знаков, страниц и т.п.) - и изобразим полученные числа в виде графика, отложив по горизонтали годы t, а по вертикали - объемы "глав". См. рис.7.
Для другого погодного текста Y (т.е. описывающего события по годам) соответствующий график (рис.8) будет иметь, вообще говоря, другой вид, так как большую роль в распределении объема играют личные интересы авторов текстов. Например, хроника по истории искусств и военная хроника по-разному расставляют акценты и по-разному распределяют объем информации по годам.
Насколько существенны эти различия, т.е. существуют ли такие характеристики графиков объема, которые определяются только интервалом времени (А,В) и государством Г и которые однозначно характеризуют все (или почти все) тексты, описывающие этот временной интервал и государство? Оказывается, важной характеристикой графика объема являются годы, в которые график делает ВСПЛЕСК (достигает ЛОКАЛЬНЫХ МАКСИМУМОВ). Эти всплески (локальные максимумы) указывают "подробно описанные годы" на отрезке времени (А,В). B разных хрониках "подробно описанными" могут быть, вообще говоря, разные годы.
Пусть С(t) - объем всех текстов, написанных о годе t современниками этого года (рис.9). График С(t) нам НЕИЗВЕСТЕН, так как тексты утрачиваются со временем, информация исчезает. Сформулируем МОДЕЛЬ ПОТЕРИ ИНФОРМАЦИИ:
|
ОТ ТЕХ ЛЕТ, В КОТОРЫЕ БЫЛО ЗАФИКСИРОВАНО (СОВРЕМЕННИКАМИ) ОСОБЕННО МНОГО ТЕКСТОВ, - БОЛЬШЕ И ОСТАНЕТСЯ.
B таком виде проверить модель трудно, поскольку график С(t) нам неизвестен. Однако можно проверить одно из следствий этой модели:
Поскольку более поздние летописцы Х и Y, описывая один и тот же период (А,В), уже не являются современниками этих древних событий, то они вынуждены опираться на приблизительно один и тот же набор дошедших до них текстов и, следовательно, должны ("в среднем") более подробно описать те годы, от которых сохранилось больше текстов, и менее подробно - годы, о которых сохранилось мало информации (мало текстов). Другими словами, хронисты "в среднем" должны увеличивать подробность изложения при описании тех лет, от которых сохранилось больше текстов.
Окончательно ПРИНЦИП КОРРЕЛЯЦИИ МАКСИМУМОВ формулируется так.
Графики объема "глав" для ЗАВИСИМЫХ хроник Х и Y, т.е. для описывающих один и тот же период (А,В) и одно и то же государство Г, ДОЛЖНЫОДНОВРЕМЕННО ДОСТИГАТЬ ЛОКАЛЬНЫХ МАКСИМУМОВ (ДЕЛАТЬ ВСПЛЕСКИ) на отрезке (А,В), т.е. годы, "подробно описанные в Х", и годы, "подробно описанные в Y", должны быть близки или совпадать (рис.10).
Напротив, если хроники Х и Y НЕЗАВИСИМЫ, т.е. описывают либо разные исторические периоды (А,В) и (C,D) (одинаковой длины), либо разные государства, то графики объема для Х и Y достигают локальных максимумов В РАЗНЫХ ТОЧКАХ (если мы совместим отрезки (А,В) и (C,D)) (рис.11).
Этот принцип подтвердится, если для большинства пар реальных (достаточно больших) зависимых хроник Х и Y, т.е. описывающих одни и те же события, графики объема для Х и Y делают всплески приблизительно одновременно (в одни и те же годы). При этом величина этих всплесков может быть существенно различной. Для реальных независимых хроник какая-либо корреляция точек всплесков должна отсутствовать. Конечно, для конкретных зависимых хроник одновременность всплесков графиков объема может иметь место лишь приблизительно.
|
Для количественной оценки близости точек всплесков посту пим так.
Вычислим число f(Х,Y) - сумму квадратов чисел f[k], где f[к] - расстояние в годах от точки всплеска с номером "k" графика объема Х до точки всплеска с номером "k" графика объема Y.
Если оба графика делают всплески одновременно, то моменты всплесков с одинаковыми номерами совпадают, и все числа f[k] равны нулю. Рассмотрев достаточно большой фиксированный запас различных реальных текстов Н и вычисляя для каждого из них число f(Х,Н), отберем затем только такие тексты Н, для которых это число не превосходит числа f(Х,Y). Подсчитав долю таких текстов во всем запасе текстов Н, получаем коэффициент, который (при гипотезе о распределении случайного вектора Н) можно интерпретировать как вероятность р(Х,Y). (Более подробно описание р(Х,Y) см. в [416], [419], [375].) Если коэффициент р(X,Y) мал, то хроники Х и Y зависимы. Если же коэффициент велик, то хроники X и Y независимы, т.е. сообщают о разных событиях.