Приложение I. Значения функции нормального распределения с параметрами 0 и 1 (для отрицательных значений Z) 2 глава




Решение

Введите в диапазон A1:E1 листа 1 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Для выполнения корреляционного анализа введите в диапазон A2:E51 введите исходные данные из табл. VI.1 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Au, г/т.

Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал В1:E51. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите G2. Нажмите кнопку OK.

Результаты анализа. В выходном диапазоне получаем корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Au – 0,28 – линейную связь между содержанием меди и золота выявить не удалось, Pb и Au – 0,49 – можно говорить о наличии корреляционной связи между свинцом и золотом, Zn и Au – 0,545 – можно говорить о наличии корреляционной связи между цинком и золотом. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично расположенные относительно диагонали).

Введите в диапазон A1:E1 листа 2 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Для продолжения корреляционного анализа введите в диапазон A2:E51 листа 2 рабочей книги Excel исходные данные из табл. VI.2 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Ag, г/т. Аналогично получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Ag – 0,48 – можно говорить о наличии корреляционной связи между содержанием меди и серебра, Pb и Ag – 0,62 – можно говорить о наличии линейной корреляционной связи между свинцом и серебром, Zn и Ag – 0,675 – можно говорить о наличии линейной корреляционной связи между цинком и серебром. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

Введите в диапазон A1:E1 листа 3 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Далее введите в диапазон A2:E51 листа 3 рабочей книги Excel исходные данные из табл. VI.3 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Cd, 10-4 %. Получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Cd – 0,64 – можно говорить о наличии линейной корреляционной связи между содержанием меди и кадмия, Pb и Cd – 0,48 – можно говорить о наличии корреляционной связи между свинцом и кадмием, Zn и Cd – 0,981 – между параметрами существует практически линейная зависимость между цинком и кадмием. Коэффициент парной корреляции между Zn и Cu, равный 0,628 показывает, что можно говорить также о наличии линейной корреляционной связи между цинком и медью.

Введите в диапазон A1:E1 листа 4 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Введите в диапазон A2:E51 листа 4 рабочей книги Excel исходные данные из табл. VI.4 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Sb, 10-4 %. Получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Sb – 0,49 – можно говорить о наличии корреляционной связи между содержанием меди и сурьмы, Pb и Sb – 0,60 – можно говорить о наличии линейной корреляционной связи между свинцом и сурьмой, Zn и Sb – 0,944 – можно говорить о наличии сильной линейной корреляционной связи между цинком и сурьмой. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

Введите в диапазон A1:E1 листа 5 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Введите в диапазон A2:E51 листа 5 рабочей книги Excel исходные данные из табл. VI.5 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Ba, %. Получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Ba – 0,10 – можно говорить о том, что корреляционную связь между содержанием меди и бария выявить не удалось, Pb и Ba – 0,74 – можно говорить о наличии линейной корреляционной связи между свинцом и барием, Zn и Ba – 0,41 – можно говорить о наличии корреляционной связи между цинком и барием. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

 

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И ЕЕ ИСПОЛЬЗОВАНИЕ ДЛЯ ПРЕДСКАЗАНИЯ СВОЙСТВ ГЕОЛОГИЧЕСКИХ ОБЪЕКТОВ

В отличие от двумерной регрессии в методах множественной регрессии зависимая переменная Y рассматривается как функция не одной, а нескольких независимых переменных X 1, X 2,..., Xm.

Уравнение множественной регрессии зависимой переменной Y относительно т независимых переменных X 1,2,…, m записывается как линеаризированная функция вида

, (VI.1)

где a 0, a 1, a 2, …, am – требующие определения коэффициенты регрессии. Оно наилучшим способом (в смысле наименьших квадратов) описывает тенденцию расположения наблюденных точек в m -мерном пространстве и позволяет оценить совместное влияние всех изучаемых параметров на зависимую переменную.

Множественная регрессия строится на основе учета всех возможных взаимодействий между переменными и их сочетаниями. В ее задачи входит оценка общего вклада всех переменных (R 2) в изменчивость Y, а также определение относительного влияния каждой из них с помощью коэффициентов ai,. Таким образом, множественный регрессионный анализ сводится к вычислению значений коэффициентов регрессионной модели a 0, a 1, a 2, …, am по совокупности п наблюдений над переменными X 1, X 2,..., Xm и Y, оценке влияния каждой переменной и их общего вклада в оценку зависимой переменной Y. В матричной форме уравнение (VI.1) записывается как:

[ ΣY ] = [ ΣX ] [ a ],

где [ ΣY ] – вектор-столбец, состоящий из сумм квадратов и смешанных произведений переменной Y с переменными X 1, X 2,..., Xm;[ ΣX ] – матрица сумм квадратов и смешанных произведений X 1, X 2,..., Xm; [ a ] – вектор-столбец неизвестных коэффициентов регрессии. Коэффициенты регрессии ai рассчитываются как частные коэффициенты регрессии, характеризующие изменения данной независимой переменной при условии, что влияние всех остальных переменных устранено.

Для сравнительной оценки вклада каждой зависимой переменной коэффициент R2 сначала рассчитывается для пары Y и Xk с максимальным коэффициентом корреляции, а затем последовательно с тремя и более переменными (до т переменных).

Модели множественной регрессии используются для предсказаний значений зависимой переменной (например, содержаний ценного элемента, объемной массы руды и глубины формирования минерала и др.) по набору независимых переменных (например, содержаний породообразующих элементов, объемных масс тяжелых минералов в рудах, содержаний элементов-индикаторов в минералах и др.).

 

ПРИМЕР VI.2

Требуется

Используя результаты предыдущего ПРИМЕРА VI.1, при наличии корреляционных связей между основными и попутным компонентом, провести регрессионный анализ с учетом связей между основными и попутным компонентами. Рассчитать уравнение регрессии для оценки содержания попутного компонента по основным компонентам.

 

 

Решение

1. Откройте лист 1 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1.

2. В пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Регрессия. Нажмите кнопку OK.

3. В появившемся диалоговом окне задаем Входной интервал Y. Для этого наведите указатель мыши на верхнюю ячейку столбца зависимых данных (E1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (E51), затем отпустите левую кнопку мыши. (Обратите внимание, что зависимые данные – это те данные, которые предполагается вычислять).

4. Так же укажите Входной интервал X, то есть введите ссылку на диапазон независимых данных B1:D51. (Независимые данные – это те данные, которые будут измеряться или наблюдаться).

5. Установите флажок в поле Метки в первой строке. Установите флажок в поле График подбора.

6. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал (наведите указатель мыши и щелкните левой кнопкой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (G10). Щелкните левой кнопкой мыши. Нажмите кнопку OK.

7. В выходном диапазоне появятся результаты регрессионного анализа и графики предсказанных точек.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 0,000191, то есть p << 0,05 – заданный уровень значимости, гипотеза о незначимости регрессии отвергается и считается, что регрессия значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,346). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна и модель требует улучшения.

Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,083; в строках соответствующих переменных приводятся значения коэффициентов при этих переменных Cu = 0,016, Pb = 0,058 и Zn = 0,015. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Все коэффициенты незначимы (0,146, 0,804, 0,093, 0,104), то есть для всех коэффициентов p > 0,05, и коэффициенты могут считаться равными нулю.

8. Поэтому в модель следует включить только те независимые переменные, которые коррелируют с зависимой переменной. Выполните регрессионный анализ с помощью меню Сервис / Анализ данных, установив Входной интервал X как C1:D51, то есть взяв в качестве независимых переменных – содержания Pb и Zn.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 4,75E-05, то есть p << 0,05 и модель значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,345). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна.

Значения коэффициентов модели определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,086; в строках соответствующих переменных приводятся значения коэффициентов при этих переменных: Pb = 0,053 и Zn = 0,017. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Свободный член и коэффициент при Pb незначимы, то есть p > 0,05, и коэффициенты могут считаться равными нулю, а коэффициент при Zn значим, так как соответствующее p-значение – 0,0087.

9. Улучшим модель, взяв в качестве независимых переменных только содержание Zn. Отбросить фактор влияния Pb следует еще и потому, что между Zn и Pb, существует корреляционная связь, о чем свидетельствует коэффициент парной корреляции равный 0,572, который даже несколько выше коэффициента парной корреляции между Au и Zn, равного 0,545.

Выполним регрессионный анализ с помощью меню Сервис / Анализ данных, установив Входной интервал X как D1:D51.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 4,15E-05, то есть p << 0,05 и модель значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,297). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна.

Значения коэффициентов модели определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,120; в строке переменной Zn значение коэффициента при переменной Zn = 0,023. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Свободный член значим, то есть p < 0,05, и коэффициент при Zn значим, так как соответствующее p-значение – 4,15E-05.

График подбора – см. рис. VI.1. Получено уравнение регрессии Au(Zn)=0,0236*Zn+0,1204.

Поскольку точность аппроксимации недостаточна, на следующем этапе можно попытаться подобрать нелинейную модель зависимости Zn – Au, например, Au(Zn)=–0,00045*Zn^2+0,03682*Zn+0,08112, для которой R-квадрат равен 0,309 (см. рис. VI.2).

 

Рис. VI.1. График подбора модели с помощью процедуры Регрессия

Рис. VI.2. График линейной и квадратической регрессии

10. Аналогично, для всех значимых независимых переменных произведите регрессионный анализ для данных, представленных в табл. VI.2 – VI.5.

Откройте лист 2 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимых переменных переменные Pb и Zn. Регрессионная модель будет выглядеть как Ag(Pb,Zn)=9,300*Pb+2,670*Zn+15,426.

Откройте лист 3 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимой переменной переменную Zn. Регрессионная модель будет выглядеть как Cd(Zn)=3,930*Zn–0,511.

Откройте лист 4 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимой переменной переменную Zn. Регрессионная модель будет выглядеть как Sb(Zn)=92,459*Zn–161,693.

Откройте лист 5 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимой переменной переменную Pb. Регрессионная модель будет выглядеть как Ba(Pb)=3,251*Pb+2,455.

 

ПРИМЕР VI.3

Требуется

По условию ПРИМЕРА VI.1:

1) проверить гипотезу о наличии корреляционной связи между основными и одним из попутных компонентов;

2) определить, с каким из основных компонентов наиболее тесно связан попутный компонент;

3) получить корреляционную матрицу, дать ее графическое изображение. Выделить значимые коэффициенты корреляции;

4) при наличии корреляционных связей между основными и попутным компонентом провести регрессионный анализ с учетом связей между основными и попутным компонентами. Рассчитать уравнение регрессии для оценки содержания попутного компонента по основным.

 

Решение

1. Создать файл данных в программе Statistica по табл. VI.1.

2. Провести корреляционный анализ всей выборки. Для этого в меню с основными процедурами Statistics выбрать Basic Statistics/Tables, а в появившемся его меню – Correlation matrices.

В появившемся диалоговом окне Product-Moment and Partial Correlations: нажать на вкладке Quick кнопку Summary: Correlation Matrix и в диалоговом окне Select one or two variable lists указать для First variable list: 1–3, а для Second variable list (optional): 4 (см. рис. VI.3). Далее нажать OK. Результатом будет расчет коэффициентов корреляции – рис. VI.4.

Вернувшись в диалоговое окно Product-Moment and Partial, нажать на вкладке Advanced/Plot кнопку 2D scatterplot и результатом будет – расчет scatterplot (доверительный интервал) для переменной Au зависимостей от Cu, Pb, Zn. На рис. VI.5 приведен доверительный интервал для зависимости Au(Zn). Сравните уравнение, находящееся в верхней части графика, с уравнением, полученным в электронных таблицах Excel (см. ПРИМЕР VI.2).

Рис. VI.3. Выбор переменных для корреляционного анализа

Рис. VI.4. Расчет коэффициентов корреляции

 

Рис. VI.5. Зависимость Au от Zn и ее доверительный интервал

3. Так как существует корреляция между концентрациями Au и Zn, то следует произвести регрессионный анализ. Для этого в начальном меню StatisticS выбираем Multiple Regression.

В открывшемся диалоговом окне Multiple Linear Regression нажимаем кнопку Variables и устанавливаем, как показано на рис. VI.6 в открывшемся диалоговом окне Select depended and independed variables lists:, зависимую и независимую переменные. Далее нажимаем OK.

Вернувшись в диалоговое окне Multiple Linear Regression, нажать OK.

Результатом будет Multiple Regression Results: – см. рис. VI.7.

 

 

Рис. VI.6. Установка зависимой и независимой переменных для регрессионного анализа

Рис. VI.7. Multiple Regression Results:

 

Далее, в этом диалоговом окне Multiple Regression Results:, нажать кнопку Summary: Regresion Results и получим таблицу статистик – см. рис. VI.8, где в столбце В указаны коэффициенты регрессии: 0,120947 – коэффициент при Zn и 0,120804 – свободный член; p-level – уровень значимости для каждого коэффициентов; beta – коэффициент корреляции. Сравните уравнение с уравнением, полученным в электронных таблицах Excel – см. ПРИМЕР VI.2.

Рис. VI.8. Таблица результатов Regresion Results

4. Аналогично, для всех значимых независимых переменных произведите регрессионный анализ для данных, представленных в табл. VI.2 – VI.5.

 

 

ЛАБОРАТОРНАЯ РАБОТА № VII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. КЛАСТЕРНЫЙ АНАЛИЗ. ФАКТОРНЫЙ АНАЛИЗ

 

СТАТИСТИЧЕСКИЕ МЕТОДЫВЫДЕЛЕНИЯ АССОЦИАЦИЙ ХИМИЧЕСКИХ ЭЛЕМЕНТОВ

Методы выделения парагенетических химических элементов сводятся к разделению исходных совокупностей на несколько классов по степени сходства, составляющих их объектов. При этом предполагается, что степень сходства объектов, объединяемых в один класс, должна быть существенно больше степени сходства между объектами из разных классов.

Основой классификации исходных совокупностей химических элементов служат корреляционные матрицы их содержаний в изучаемых объемах (минералах, породах или рудах), а мерой сходства – оценки парных коэффициентов их корреляции. Выделение парагенетических ассоциаций элементов сводится к выявлению внутри корреляционной матрицы [ R ] однородных блоков (подматриц типа [ Ri ]), соответствующих таким совокупностям элементов, содержания которых связаны линейной положительной зависимостью.

Строгое математическое решение задачи классификации исходных совокупностей по корреляционным характеристикам практически невозможно, поскольку коэффициенты парной корреляции элементов имеют стохастическую природу, в связи с чем во многих конкретных случаях возникают возможности многовариантного группирования объектов.

 

РАСПОЗНАВАНИЕ ОБРАЗОВ БЕЗ ОБУЧЕНИЯ

Классическими методами распознавания образов без обучения являются методы кластерного анализа (кластер-анализа).

Номера, получаемые в результате расчета кластеров, смыслового значения не имеют. Эти номера нужны только для того, чтобы отличить один кластер от другого, поэтому при использовании результатов кластерного анализа в других методах, например в распознавании образов с обучением, порядок следования кластеров может быть любым удобным для исследователя.

Все рассмотренные далее методы могут быть использованы как для классификации объектов, так и для классификации признаков.

МЕРЫРАЗЛИЧИЯ И МЕРЫСХОДСТВА

Виды используемых в кластерном анализе мер сходства и различия перекликаются с философской дилеммой: «ищите сходство» или «ищите различие». Меры сходства для кластерного анализа могут быть следующих видов:

· Мера сходства типа расстояния (функции расстояния), называемая также мерой различия. В этом случае объекты считаются тем более похожими, чем меньше расстояние между ними, поэтому некоторые авторы называют меры сходства типа расстояния мерами различия.

· Мера сходства типа корреляции, называемая связью, является мерой, определяющей похожесть объектов. В этом случае объекты считаются тем более похожими, чем больше связь между ними. Меры могут быть легко приведены к предыдущему типу.

· Информационная статистика.

Меры различия и информационная статистика

Используемые при этом метрики – евклидово расстояние, манхеттенское расстояние, сюпремум-норма, расстояние Махалонобиса – они отражают все многообразие подходов к решению проблемы. Первая метрика используется традиционно, вторая метрика является наиболее известным представителем класса метрик Минковского. Расстояние Махаланобиса, по определению метрикой не являющееся, связано с помощью дисперсионно-ковариационной матрицы с корреляциями переменных (параметров), и широко применяется как в кластерном, так и в других методах анализа данных.

Меры сходства используются для методов:

· ближней связи (этот метод имеет вариант и для мер сходства);

· средней связи Кинга;

· Уорда;

· средних Мак-Куина.

Меры сходства

Связями могут быть: коэффициент корреляции, коэффициент ассоциативности (ассоциации) и т.д. Из этих связей для количественных признаков предназначены: коэффициент корреляционного отношения Пирсона, дисперсия-ковариация. Для порядковых признаков предназначены: показатель ранговой корреляции Спирмена, коэффициент ранговой корреляции Кендалла.

Перечисленные меры сходства используют методы:

· ближней связи (этот метод имеет вариант и для мер различия);

· корреляционных плеяд;

· максимального корреляционного пути.

По умолчанию в последних двух методах обычно классифицируются параметры (в первом классифицируются объекты), что обусловлено их традиционной авторской реализацией и назначением, однако путем простого транспонирования матрицы исходных данных и перемены местами чисел строк и столбцов можно легко изменить тип классификации на противоположный.

В комбинации с различными метриками, связями и мерами сходства других типов, перечисленные алгоритмы дают большое число вариантов решения задачи классификации без обучения. Результаты классификации разными методами, как правило, принципиально не различаются, и выбор того или иного метода является делом вкуса исследователя и традиции школы.

КЛАСТЕРНЫЙ АНАЛИЗ

Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров. В отечественной литературе синонимом термина «кластерный анализ» является термин «таксономия». В иностранной литературе под таксономией традиционно понимается классификация видов животных и растений.

Рассматриваются следующие методы кластерного анализа:

· Иерархические методы:

o метод ближней связи,

o метод средней связи Кинга,

o метод Уорда.

· Итеративные методы группировки:

o метод k -средних Мак-Куина.

· Алгоритмы типа разрезания графа:

o метод корреляционных плеяд Терентьева,

o вроцлавская таксономия.

Классифицируемы могут быть как параметры, так и объекты.

1) МЕТОД БЛИЖНЕЙ СВЯЗИ

Этот метод является самым простым для понимания из иерархических агломеративных методов кластерного анализа. Метод и начинает процесс классификации с поиска и объединения двух наиболее похожих объектов в матрице сходства. На следующем этапе находятся два очередных наиболее похожих объекта, и процесс повторяется до полного исчерпания матрицы сходства.

В процессе кластеризации методом ближней связи явно прослеживается образование цепочек объектов. Таким образом, для выделения кластеров после окончания процесса кластеризации требуется задаться некоторым пороговым уровнем сходства, на котором выделяется число кластеров, большее единицы. Процедура не всегда обнаруживает такое свойство, как образование одного большого кластера на последнем этапе кластеризации, и часто заканчивается явным разделением всех предъявленных объектов на кластеры.

2) МЕТОД СРЕДНЕЙ СВЯЗИ КИНГА

Метод средней связи подобен методу ближней связи. Разница в том, что на каком-либо этапе ранее объединенные в один кластер объекты считаются одним объектом с усредненными по кластеру параметрами.

3) МЕТОД УОРДА

Данный метод напоминает метод средней связи Кинга. Особенностей состоит в том, что основанием для помещения объекта в кластер является не близость двух объектов в каком-либо смысле, в зависимости от меры сходства, а минимум дисперсии внутри кластера при помещении в него текущего классифицируемого объекта.

4) МЕТОД K-СРЕДНИХ МАК-КУИНА

Теоретическое обоснование метода k -средних (k внутригрупповых средних) сравнительно просто, логично и может быть найдено во многих источниках. Принцип классификации сводится к некоторому, возможно, случайному, исходному разбиению множества объектов на заданное число кластеров (классов, групп, популяций), последующему отнесению остальных объектов к ближайшим кластерам, пересчету новых «центров тяжести» кластеров и продолжению описанной процедуры, пока не будет получено некоторое оптимальное разбиение. Кластеризация обычно продолжается, пока новые «центры тяжести» кластеров не перестанут отличаться от старых «центров тяжести». Особенностью метода является то, что выделенные в результате расчетов кластеры не будут пересекаться – гарантируется, что каждый классифицированный объект будет отнесен только к одному кластеру.

В визуализации результатов кластеризации методом k -средних нет необходимости, хотя может оказаться наглядным и красивым изображение пространственных эллипсоидов (только для размерности не более 3, для большей размерности используются двумерные срезы пространства), coдержащих классифицированные объекты.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: