Кластерный анализ исходных данных

Таблица № 7.

Средние кластеры

	н.о.1	н.о.2	н.о.3	н.о.4
с_1	80,54000	10,20000	3,160000	0,468571
с_2	63,07000	17,42000	3,390000	1,704286
с_3	66,34000	18,60000	2,310000	1,308571
с_4	66,59000	16,86000	3,610000	1,335714
с_5	69,53000	14,17000	3,245000	1,312857
с_6	75,84000	13,32000	4,365000	0,310000
с_7	76,28000	12,93000	3,725000	0,467143
с_8	72,06000	14,96000	3,980000	0,668571
с_9	72,95000	15,10000	3,555000	0,624286
с_10	74,79000	14,19000	2,625000	0,851429
с_11	72,90000	13,00000	3,490000	0,924286
с_12	76,00000	13,35000	2,180000	0,918571
с_13	75,81500	12,48300	3,162500	0,732571
с_14	72,66700	16,30300	2,661500	0,810429
с_15	75,61100	12,89900	4,364500	0,375714
с_16	73,23800	13,62500	3,299500	0,880571
с_17	74,98400	14,83700	4,254500	0,142714
с_18	75,12600	13,33600	4,996500	0,179571
с_19	76,76100	13,14900	4,655000	0,082571
с_20	78,06200	13,08200	3,858000	0,117143
с_21	74,83900	14,18700	4,328500	0,224143
с_22	73,64000	14,11900	4,629000	0,264286
с_23	74,98300	14,11700	4,098000	0,194143
с_24	76,31700	12,99600	4,364000	0,180714
с_25	73,61100	14,26300	4,898000	0,211143
с_26	67,49700	15,21700	4,499000	0,754571
с_27	76,39100	13,82400	3,840500	0,199714
с_28	77,41300	12,92700	3,815500	0,213000
с_29	77,91000	12,79600	3,997000	0,116143
с_30	75,76600	13,16200	4,086000	0,275857

Рисунок 9 - Дендрограмма горизонтальной связи

Таблица № 8.

Евклидовы расстояния между кластерами

	н.о.1	н.о.2	н.о.3	н.о.4
н.о.1	0,00000	3612,168	4932,947	5398,391
н.о.2	60,10131	0,000	109,094	183,818
н.о.3	70,23494	10,445	0,000	11,482
н.о.4	73,47375	13,558	3,389	0,000

Рисунок 10 - График средних для каждого кластера

Факторный анализ

С возрастанием количества анализируемых признаков быстро растет трудность изучения и классификации характеризуемых ими объектов. Между тем, любые сложнопостроенные системы, как правило, управляются сравнительно небольшим набором факторов. Выявлению и анализу этих факторов посвящен широкий круг вычислительных процедур, обычно объединяемых названием «факторный анализ». Следует однако, помнить, что в названной области выделяется несколько самостоятельных процедур: метод главных компонент (МГК), R–метод факторного анализа, Q–метод факторного анализа, анализ главных координат, анализ соответствия. Все эти методы основаны на выделении собственных значений и собственных векторов ковариационной или корреляционной матрицы, поскольку заранее предполагается, что в наборе многомерных наблюдений скрыта простая структура, выражающаяся через дисперсии и ковариации переменных.

Метод главных компонент позволяет выявить группы элементов, наиболее тесно связанных с тем или иным мощным фактором. Элементы, однонаправлено изменяющие свое состояние под действием общего фактора, могут быть объединены в комбинации, называемые главными компонентами. Число последних намного меньше исходного числа параметров, в то же время они несут практически всю полезную информацию об изменчивости свойств, заключенную в исходной совокупности.

Главные компоненты вычисляются по формулам:

1ГК = ∑ω_ilx_i = ω₁_l ·х₁ + ω₁х₂ +.... +ω_n1х_n;

2ГК = ∑ω_i₂x_i;

3ГК = ∑ω_i₃x_i и т.д..

Здесь x_i - значения параметров, ω_ij - факторные нагрузки (это влияние j -го фактора на i -й элемент, т.е. своего рода коэффициент корреляции между ними).

Таким образом, для нахождения главных компонент нам необходимо вычислить матрицу факторных нагрузок W. Она определяется из соотношения:

W = uΛ^½

где u - матрица собственных векторов, а Λ - матрица собственных чисел корреляционной матрицы R. Элементы матрицы Λ определяются как корни характеристического уравнения:

|R-λ׀| = 0, где I - единичная матрица.

Вычислив этот определитель, получаем уравнение, степень которого и число полученных корней равны числу строк в корреляционной матрице R. При этом λ₁ >λ₂ >λ₃... >λ_n, a ∑λ_i = n. Матрица u, находится из выражения:

(R - λ1)u=0

Подставляя в это уравнение найденные значения λ_i, получаем для каждого λ_i вектор значений u_i.

Таблица №9. Факторные нагрузки

	фактор 1	фактор 2
SiO2	0,910032	0,180100
TiO2	-0,728842	-0,516303
Al2O3	-0,759301	-0,238498
Fe2O3	-0,908964	0,064969
MnO	-0,780036	0,211023
MgO	-0,656868	0,309249
CaO	-0,618584	0,521466
Na2O	-0,040191	-0,699149
K2O	0,635565	-0,052068
P2O5	-0,699322	-0,455301
ППП	-0,821456	0,347351
Общ.дис.	5,754100	1,591671
Доля общ	0,523100	0,144697

Рисунок 11 – Диаграмма факторных нагрузок

Как видим, 1-й фактор значимо влияет на все элементы. Такой фактор обычно называют генеральным. Генеральный фактор отрицательно сказывается на контрастности корреляционной матрицы, обуславливая перекрытие выделяемых групп. Дать главным факторам геологическую интерпретацию не всегда возможно, но когда это удается, информативность метода резко возрастает. В частности, в рассмотренном примере со 2-м фактором, видимо, связан процесс карбонатизации пород. Дать интерпретацию 1-му фактору сложнее.

Метод главных компонент можно использовать и для распознавания образов. Для этого в координатах двух ГК выносятся значения для эталонных объектов и локализуются области, отвечающие этим объектам

Таким образом МГК сводится к линейному преобразованию М исходных переменных в т новых переменных, каждая из которых является линейной комбинацией исходных переменных. При этом МГК не является статистическим методом и мы практически не имеем формальных критериев для отбрасывания некоторых переменных или компонент, дающих очень малый вклад в суммарную дисперсию. О правильности своих действий мы можем судить только после проведения анализа МГК.

Рисунок 12 - Определение промышленного типа месторождения по методу главных компонент.

а - 1-й промтип, б - 2-й промтип, в – непромышленнные объекты, г - изучаемое рудопроявление.

В отличие от МГК, факторный анализ считается статистическим методом, поскольку в его основе лежат некоторые предположения о природе изучаемой совокупности. Предполагается, что связь между m переменными является отражением корреляционной зависимости каждой из переменных с р взаимно некоррелированными факторами, причем р<m (если р = m, модель эквивалентна МГК). Поэтому дисперсию для m переменных можно вычислить с помощью дисперсии р – факторов плюс вклад, происхождение которого одинаково для всех переменных.

В Q-методе факторного анализа, в отличие от R-метода, анализируются взаимосвязи между наблюдениями, а не переменными.

Одно из главных препятствий в применении геологами различных модификаций факторного анализа заключено в абстрактности понятий собственных векторов и собственных значений корреляционных матриц. Между тем, эти категории имеют вполне определенный содержательный и геометрический смысл. На рис. видно, что строки корреляционной матрицы можно представить как произвольные оси двумерного эллипсоида, тогда собственные вектора, дают направление главных осей эллипсоида, а корень из величины собственного значения – длину главных полуосей. Поскольку собственные значения включают в себя дисперсии переменных, очевидно, что и факторы отражают дисперсии (точнее, стандартные отклонения). При этом наклон и длина главных осей эллипсоида наглядно свидетельствуют о влиянии фактора на значения конкретной переменной.

Рисунок 13 - Графическое изображение собственных векторов корреляционной матрицы.

Поскольку одна из главных задач факторного анализа - сокращение размерности исходного пространства признаков, важнейшим вопросом является выбор количества сохраненных факторов. Формального ответа на этот вопрос не существует, поэтому в большинстве случаев рекомендуется сохранять столько факторов, сколько имеется собственных чисел, больших 1, то есть сохраняются факторы, вклад которых в дисперсию больше, чем у каждой из исходных переменных. Эта рекомендация полезна в тех случаях, когда исходные данные хорошо скоррелированы и первые 2-3 фактора дают основной вклад в общую дисперсию. Если же переменные скоррелированы слабо, то половина и даже больше факторов может иметь собственные числа большие единицы. Число факторов получается слишком большим, причем вклад каждого из них в дисперсию невелик, а содержательная интерпретация затруднительна. В таких случаях применение факторной модели следует признать нецелесообразным.

В ряде случаев бывает затруднительно дать интерпретацию факторов даже если переменные хорошо скоррелированы. Перекрытие групп переменных зачастую обусловлено тем, что положение р ортогональных факторных осей в m-мерном пространстве определяется положением m–р ненужных ортогональных осей в выборочном пространстве. Исключив из рассмотрения ненужные оси, мы можем произвести вращение оставшихся факторных осей таким образом, чтобы выделенные группы наилучшим образом расположились в новых координатах. В наиболее часто используемом методе (метод варимакс Кайзера) вращение осуществляется до тех пор, пока проекции каждой переменной на факторные оси не окажутся близкими либо к нулю, либо к ±1. Чаще всего такое вращение приводит к тому, что для каждого фактора мы получаем несколько больших значений нагрузок и много близких к нулю. Это существенно облегчает содержательную интерпретацию факторов. Если же вращение факторных осей лишь ухудшает первоначальный результат, это свидетельствует либо о взаимной коррелированности факторов, либо о неприменимости выбранной факторной модели.

Графическое представление процедуры вращения факторных осей для двумерного случая дано на рис..

Рисунок 14 - Вращение факторных осей для двумерного случая.

Проекции векторов переменных на факторные оси соответствуют их факторным нагрузкам. Видно, что после вращения разделение элементов на группы значительно улучшилось. При этом длина векторов и их относительное положение не изменились.

Таким образом, факторный анализ сочетает в себе преимущества и возможности как методов группирования, так и распознавания образов. В частности, он может быть использован как вариант множественной регрессии для вычисления восстановленных значений переменной:

Хвост. = S⋅ω_j⋅Z′_j+х⋅ε΄,

где S – диагональная матрица m х m оценок стандартов m переменных;

ω_j – факторная нагрузка j фактора;

Z´_j – вектор-строка значений фактора j;

х - среднее значение параметра по выборочным данным;

ε΄ -вектор-строка размером N (число наблюдений) вида {1, 1, 1,.... 1}.

Таким способом можно оценить влияние каждого выделенного фактора (процесса) на распределение конкретного элемента и геометризовать в пространстве интенсивность этого влияния. Эта задача обычна при создании генетических моделей и прогнозо-поисковых комплексов.

Заключение

Данная контрольная работа, основной целью, которой было выяснить и понять распределение полезных компонентов в гранитах Восточного Забайкалья, по данным полученным в результате опробования и проведения рентгенофлуоресцентного анализа проб, содержит в себе результаты проведения анализов в программе «Statistica», с составлением таблиц и графических диаграмм.

Было проведено 6 анализов:

1. Статистический анализ – анализ с помощью, которого были получены статистические характеристики для каждого компонента, которые образуют гранитные породы (SiO₂. TiO₂, Al₂O₃, Fe₂O₃, MnO, MgO, CaO, Na₂O, K₂O, P₂O₅, ППП), представленные в таблице 2.

2. Корреляционный анализ – анализ, заключался в изучении коэффициентов корреляции между переменными, в результате, которого была создана таблица корреляции по всем элементам (таблица 3), где явно прослеживалась линейная взаимосвязь, на основании, которой были представлены диаграммы рассеяния (рисунок 6).

3. Регрессионный анализ – анализ, смысл которого, заключался в построении зависимостей между группами числовых переменных; в результате анализа была составлена таблица предсказанных значений и остатков, с зависимой переменной TiO₂ и MgO, на основании, которой был составлен нормальный вероятностный график остатков, который наглядно показывает отсутствие больших отклонений от высказанных предположений.

4. Кластерный анализ – ряд методов, который использовался для группировки объектов в кластеры на основе сходства их характерных признаков; в результате анализа «иерархическая классификация» были составлены дендрограммы горизонтальные и вертикальные, которые показывают степень близости кластеров, и последовательность их объединения и разделения, где в нашем случае наиболее дальше расположен элемент SiO₂.

Было выявлено 4 кластера, на основании, которых были построены таблицы описательных статистик для каждого кластера, и для каждого кластера было выявлено содержание элементов в каждом из них, и составлен график средних для каждого кластера, где явно видна степень активности кластера 1 (SiO₂), как самостоятельного элемента, процентное содержание, которого относит г/п к одному из классов магматических горных пород.

5. Факторный анализ – проведение анализа заключалось в выявлении влияния факторных нагрузок на элементы, в результате, чего была составлена таблица факторных нагрузок, и диаграмма факторных нагрузок, на котором явно прослеживается сосредотачивание группы элементов или их присутствие по отдельности.

В результате проведения всех анализов, можно предположительно сделать вывод о том, что результаты рентгенофлуоресцентного анализа верны, и содержание элементов, которые образуют 1 тип пород (граниты) правильны, что доказывает проведение статистических анализов, которые являются неточными, но характер поведения элементов показали явно.

Кластерный анализ исходных данных

Поиск по сайту