Методические основы статистического анализа данных в археологии

Статистические методы используются тогда, когда экспериментальные данные представляют собой значительный объем результатов “измерений”, “наблюдений”. При этом структура совокупности исходных данных несет в себе определенную неоднородность, выражающую различные соотношения зависимости, порядка, перманентности (Деревянко, Фелингер, Холюшкин, 1989:140).

Археологам часто приходится считать вещи, так что сама природа археологии предоставляет подходящую сферу для применения статистических методов. На этапах становления археологии как науки, да нередко и сейчас в археологических публикациях мелькают слова, хотя и не прямо, несущие сведения о количестве находок, их частоте, плотности и т.д.: много-мало; часто-изредка; типично-исключение (Щапова, 1988:89). Таким образом уже на этом уровне обобщения больших количественных объемов данных археологу приходится устанавливать наличие неоднородностей в исходной совокупности, производить систематизацию их в форме различного типа соотношений статистической зависимости.

Начиная с двадцатых годов ХХ века в археологии применяется простая дескриптивная статистика, включающая в себя определение процентных соотношений, расчет средних, выявление взаимовстречаемости и доверительных интервалов, которую можно рассматривать как основу для проведения более сложных анализов.

Таким образом, использование статистики в археологии восходит к временам, предшествующим появлению ЭВМ и персональных компьютеров. Как отмечал Ж.-К.Гарден, “использование методов статистики не было по существу и даже исторически связано с компьютеризацией археологии (Гарден, 1983). Однако компьютер стал идеальным орудием для счета и его использование ускорило внедрение статистических методов. А последние подтолкнули развитие теоретических исследований, т.к. они высветили по крайней мере четыре проблемы.:

проблему таксономии, а следовательно и средств естественного языка, слабо приспособленного к точным и структурированным описаниям объектов, вещей и их особенностей (Шер, 1978), усиленную отсутствием “естественной” классификации и подчеркнутую важностью эффекта отбора признаков при решении проблем сходства и различия;

проблему репрезентативности археологических данных;

проблему подтверждения, связанную с представлением о том, что использование вычислительных и статистических средств подразумевает автоматическое подтверждение результатов анализа.;

проблему интерпретации, связанную с тем, что “в археологических дискуссиях допускаются общие ошибки. Например, часто утверждается, что количество различий между коллекциями, измеренное с помощью некоторой таксономической оценки - это мера этнического родства” (Binford, 1972:247). И действительно, значение и адекватность - совершенно различные характеристики таксономии. Поэтому нельзя сказать, что классификация данных по таким таксономиям дает информацию непосредственно о значениях измеренных различий и сходств.

В частности, можно упомянуть бытовавшую одно время в археологии моду по упорядочиванию археологических данных. В данном случае речь идет не об абсолютных датировках археологических памятников, являющихся частным случаем такого упорядочивания. Под упорядочиванием понимается организация множества сравниваемых археологических единиц (например, коллекций артефактов) в виде последовательности их сходства или различия (Brainerd, 1951; Сулейманов, 1972; Шер, 1970; Каменецкий, Маршак, Шер, 1975; Холюшкин, 1981). При таком подходе решение задачи формализуется перестановкой столбцов и строк матрицы данных или матрицы подобия так, чтобы наибольшие значения располагались вблизи главной диагонали.

Кроме того нередки случаи неадекватного использования статистических методов в археологии. Это происходит из-за того, что не все исследователи, использующие ее методы при обработке данных, в достаточной мере математически подготовлены. В этом плане отрадным фактом является появление пособий по математической статистике, где в простой и доступной форме излагается суть статистических методов, смысла доставляемых ими результатов (Федоров-Давыдов, 1987).

Следует подчеркнуть, что попытка установить какую-то общую схему относительно методов и форм статистической обработки и анализа данных, годную во всех случаях, очевидно, несостоятельна. Однако, существует определенная “естественная” логика в отношении использования тех или иных методов и эта логика может служить важным подспорьем в проектировании схемы обработки данных в каждом конкретном случае.

Относительно природы статистических выводов существует целый ряд концепций, из которых, на наш взгляд, наиболее существенны две: концепция рандомизации - принятия решения в условиях неопределенности и концепция редукции (свертки) информации.

Содержательный смысл этих концепций можно пояснить в очень простой форме.

Концепция рандомизации сутью статистических методов объявляет реконструкцию целого на основе неполной информации о нем, а в соответствии с концепцией редукции представление больших объемов данных на основе выявления внутренних структурированностей, присущей этой совокупности данных.

Всю совокупность статистических методов обработки и анализа данных можно представить в виде нескольких групп. В каждой отдельной группе находится совокупность однородных или близких по структуре и результатам методов. Группы могут быть упорядочены по степени редукции (свертка, сжатие, обобщение) информации (Деревянко, Фелингер, Холюшкин, 1989: 153-154). В соответствии с таким подходом могут быть рассмотрены следующие группы методов обработки данных:

вычисление эмпирических распределений по различным классам событий, формулируемых в терминах значений признаков описания объектов статистической совокупности;

вычисление характеристик распределений (среднее, мода, медиана, дисперсия, энтропия и т.п.);

анализ зависимости между признаками (корреляция парная, частная, множественная, другие меры и коэффициенты зависимости, регрессионный анализ и т.п.);

факторное описание многомерной совокупности (факторный анализ и методы ему подобные);

образное представление эмпирических данных (методы и алгоритмы распознавания, кластерный анализ).

Продвинутый статистический анализ археологических данных предполагает взаимоувязанную обработку данных на всех перечисленных уровнях.

Для данных, сущностную основу которых представляют количественные (числовые) значения, имеется большое разнообразие конкретных алгоритмов для каждого уровня.

Имеются так же алгоритмы, базирующиеся на теоретико-информационных понятиях, характеристиках, определениях и теоремах, чем обеспечивается их независимость (инвариантность) относительно структуры признаков (шкал измерения). По мнению Я.А.Шера, отдельные публикации результатов успешного использования теоретико-информационных критериев показывают, что их возможности только раскрываются (Шер, 1994:68). Речь шла о применении энтропии при анализе структуры геометрического орнамента (Sher, 1966), выявлении критериев сходства и различия керамических комплексов (Маршак, 1965), изучении орнаментики наборных поясов (Ковалевская, 1970) и выявления степени разнообразия на палеолитических стоянках (Соффер, 1993). К сожалению без внимания автора обзора остались методические наработки, сделанные в Институте археологии и этнографии (Деревянко, Фелингер, Холюшкин, 1989:153-163).

Согласно этим наработкам на первом этапе решения археологической задачи целесообразно получить общие оценки степени структурированности данных. Для этого можно использовать энтропийные и информационные характеристики. Теоретически возможны случаи, когда в массиве структурированных составляющих нет. Если это так, то обработка его любыми методами совершенно бесполезна.

Через значения энтропийных и информационных характеристик можно получить обобщенные оценки структурированности и стохастичности исследуемой совокупности археологических данных. Если энтропийные и информационные характеристики свидетельствуют о значительной структурированности, то это дает основание для выявления конкретной структурированности методами, адекватными содержанию данных (ранговая корреляция, меры и коэффициенты сходства, распознавание образов и т.д.). Если энтропийные и информационные оценки указывают на отсутствие или незначительную структурированность, то эти же результаты будут получены при использовании любых других методов (корреляционный анализ, регрессионный анализ и т.п.).

Перечень этих обобщенных статистических характеристик для обрабатываемого массива включает:

потенциальное разнообразие элементов археологического массива;

фактическое разнообразие элементов археологического массива;

относительную структурированность археологического массива;

сумму энтропий признаков описания археологического массива;

структурированность археологического массива, определяемая соотношениями зависимости между признаками;

выборочные распределения по признакам описания;

матрица коэффициентов парных зависимостей;

группы взаимозависимых признаков на основе матриц коэффициентов парной зависимости;

таблицы распределений по основным признакам описания археологического массива;

относительное группирование значений основных признаков описания археологического массива;

детерминация основных признаков описания археологического массива.

Задачи по дальнейшей обработке археологического массива формируются исследователями на конкретных предположениях и гипотезах, а результаты предварительной обработки оказываются в этом случае полезными во многих отношениях.

Методические основы статистического анализа данных в археологии

Поиск по сайту