Сущность теории непараметрической статистики




 

1 Краткая история возникновения корреляционного анализа

 

Начало применения математико-статистических приемов для изучения корреляционных зависимостей относится к 70 годам девятнадцатого столетия. Многие историки – статистики историю развития корреляции ведут от сороковых годов девятнадцатого столетия – от того времени, когда французский математик О. Браве предложил формулу для распределения двух случайных величин, удовлетворяющих требованиям закона нормального распределения.

Однако истинным основателем корреляционной теории считается английский математик – статистик К. Пирсон, создавший в конце девятнадцатого начале двадцатого веков данную теорию. В ней корреляция выступает как форма диалектической связи, при которой действует множество различных причин, как необходимых, так и случайных, как общих для обеих корреляционных величин, так и частных, влияющих только на одну из них. Причем, не все закономерные связи – причинные.

Развитие теории осуществлялось с помощью других исследований, когда основные положения теории корреляции были уже созданы. Причем в области изучения корреляций практика резко расходилась с теорией, ставя исследователей в такие условия, которые не удовлетворяли ее требованиям.

Основой формирования способов изучения корреляций и регрессий были данные, характеризующие какие-либо, количественно выраженные признаки. Поэтому исследователи на первых же шагах встретились с задачей корреляции качественных признаков, например, связь между цветом глаз у отцов и сыновей. Общий принцип, который был положен в основу конструкции показателей корреляции качественных признаков, заключался в том, что два качественных признака можно считать взаимосвязанными, если действие одного из них А при действии признака Б таково же, как и при действии признака не Б. В развитие этого принципа, и предлагались различные конструкции таких показателей, как, например, коэффициент средней квадратичной сопряженности Пирсона или коэффициент взаимной сопряженности Чупрова.

Изучение корреляции качественных признаков породило в общем учении о корреляции так называемую теорию рангов и основанную на ней теорию ранговой корреляции. Английский математик-статистик М. Кендалл, автор монографии, посвященной проблемам ранговой корреляции, указывал, что теория рангов впервые возникла как ответвление теории случайных процессов. На начальной стадии в рангах чаще всего видели просто удобный аппарат, благодаря которому удается обойтись без измерения абсолютной величины переменных и тем самым сэкономить время и усилия. Позднее статистика рангов смогла завоевать признание благодаря своим собственным достоинствам. Кендалл сконструировал показатель, который применим и для изучения частной корреляции между рангами. Современную теорию ранговой корреляции невозможно представить без наиболее полно ее освещающих исследований М. Кендалла.

Таким образом, уже к началу двадцатого столетия математико-статистические методы измерения корреляций и регрессий сложились в общем в достаточно стройную целостную систему, включающую в себя методы непараметрической статистики и непараметрические ранговые методы.

 

2 Непараметрические ранговые методы

 

Непараметрические ранговые методы – это бурно развивающаяся область математической статистики. История современных непараметрических методов, основанных на рангах, довольно коротка – всего лишь около 40 лет. Ранговые методы выделились в особое направление непараметрической статистики не только вследствие природы исходного материала, но и по идеям его дальнейшего использования. Сегодня этими методами решаются многие задачи анализа экономических, статистических, инженерных, естественнонаучных, социологических, медицинских данных.

Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Ранг – это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Как показали статистические исследования, проведенные за последние 10-15 лет, ранговые методы в значительной мере лишены ряда недостатков для работы с малыми выборками, распределение которых неизвестно. Как известно, переход от самих наблюдений к их рангам сопровождается определенной потерей информации. Однако, эти потери не слишком велики. К сожалению, в настоящее время все еще сказывается нехватка специальной литературы по данному вопросу.

В последнее время в прогнозировании и при решении ряда других задач стали широко применяться экспертные оценки. Методы ранговой корреляции в этой области является едва ли не единственным путем обобщения экспертных оценок.

Теория рангов впервые возникла как ответвление теории случайных процессов. На начальной стадии в рангах чаще всего видели просто удобный аппарат, благодаря которому удается обойтись без изменения абсолютной величины переменных и тем самым сэкономить время или усилия. Благодаря использованию рангов можно было избежать трудностей, связанных с построением объективной шкалы абсолютных значений. Позднее статистика рангов смогла завоевать признание благодаря своим собственным достоинствам.

Ниже будут рассмотрены наиболее распространенные способы упорядочения изучаемых объектов:

- задача может сводиться просто к упорядочению объектов по месту, которое они занимают в пространстве или во времени. Например, карты были расположены в колоде в некотором порядке, а затем перетасованы. Новое расположение карт также характеризуется определенным порядком, ранжированием. Сравнив его со старым, можно увидеть, насколько тщательно были перетасованы карты. В этой задаче интересно только общее расположение карт в колоде, и нет необходимости упорядочить объекты в соответствии с “возрастанием” или “убыванием” того или иного присущего всем им признака;

- упорядочить объекты можно и по некоторому качеству, для которого не существует объективной абсолютной шкалы изменения. Можно, например, ранжировать образцы горных пород по твердости, исходя из следующего простого критерия: А тверже Б, если А оставляет царапину на Б, когда они соприкасаются. Если А оставляет царапину на Б, а Б – на В, то А будет оставлять царапину на В. Таким образом, прибегнув к ряду сопоставлений, можно с достаточной точностью упорядочить рассматриваемые объекты (если только набор не включает такие два объекта, которые обладают одинаковой твердостью). Однако подобный способ не позволяет измерить абсолютную величину твердости горных пород. Всегда можно установить, что А тверже Б. Однако до тех пор, пока не построена та или иная шкала измерения абсолютных величин, нельзя утверждать, что А, скажем, вдвое тверже Б;

- упорядочение может проводиться в соответствии с измеряемой (или теоретически исчисляемой) величиной некоторого признака. Например, можно располагать людей в том или ином порядке в зависимости от их роста, а города по численности населения. При этом не всегда требуется прибегать к самому процессу измерения: можно «на глаз» построить группу студентов по росту; однако в таких случаях критерий, по которому происходит ранжирование, должен допускать возможность непосредственных сопоставлений.

Можно упорядочить объекты по некоторому признаку, величину которого, в принципе, можно измерить, но на практике (или даже теоретически) не удается прибегнуть к такому измерению в силу тех или иных причин. Например, можно упорядочить ряд лиц по их интеллектуальным способностям, полагая, что такое качество действительно существует и что можно разместить людей в том или ином порядке в соответствии с интенсивностью этого признака.

В практических приложениях методов, основанных на ранжировании, иногда сталкиваются со случаями, когда два или несколько объектов настолько подобны, что не удается отдать предпочтение одному из них. Когда эксперт ранжирует объект на основе субъективных суждений, то это свойство (отсутствие предпочтений) связано с истиной их неразличимостью или неспособностью исследователя найти существенные различия. В этом случае говорят, что такой объект называется связанным.

Например, студентов расположили в соответствии с их достоинствами или экзаменационными баллами. Метод, который принимается для предписания числовых значений рангов связанных объектов, заключается в усреднении рангов, которые они имели бы, если были различимы. Например, если связывают третий и четвертый объекты, то каждому приписывают ранг, равный 3,5, если же связывают объекты от второго до седьмого, то получаемый ранг равен 4,5.

Иногда такой подход называется “методом средних рангов”. Когда нет основания для выбора между объектами, то ясно, что в этом случае нужно приписать всем одинаковые ранги. Преимуществом данного метода является то, что сумма рангов для всех объектов остается точно такой же как и при ранжировании без связей.

В анализе социально – экономических явлений часто приходится прибегать к различным, условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи.

 

3 Коэффициент конкордации рангов Кендалла

 

Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент корреляции (коэффициент конкордации).

В практике статистических исследований встречаются случаи, когда совокупность объектов характеризуется не двумя, а несколькими последовательностями рангов, необходимо установить статистическую связь между несколькими переменными. В качестве такого измерителя используют множественный коэффициент корреляции (коэффициент конкордации) рангов Кендалла, определяемой по следующей формуле:

 

(1)

 

где W – коэффициент конкордации;

D – сумма квадратов рангов рассчитывается по формуле (2);

n – число объектов ранжируемого признака (число экспертов);

m – число анализируемых порядковых переменных.

В некотором смысле W служит мерой общности.

 

, (2)

 

где rij расставленные ранги суждений группы экспертов;

n – число объектов(число экспертов).

Значения коэффициентов конкордации заключены на отрезке [0;1].

Увеличение коэффициента от 0 к 1 означает проявление большей согласованности суждений. Если все эти суждения совпадают, то W=1.

Проверка значимости коэффициента основана на том, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи при n>7 статистика m(n-1)* W имеет приближенно – распределение с k=n-1 степенями свободы. Поэтому коэффициент конкордации значим на уровне =0,05, если m(n-1)W> .

Метод экспертных оценок

 

1 Описание метода экспертных оценок

 

Метод экспертных оценок – это один из методов непараметрической статистики. Этот метод не является трудоемким, не требует числовых характеристик объектов, а только лишь их ранги, но вместе с тем дает не менее точные результаты.

Выбранный метод привязан к инструменту ранговой корреляции, в частности для решения задачи применяется процедура расчета одного из коэффициентов ранговой корреляции коэффициента конкордации (согласованности) Кендалла для случая несвязных и связных рангов, а также проверка его на значимость по критерию Пирсона.

Существуют различные методы экспертных оценок, наиболее распространенными из них являются:

- анкетные методы;

- методы групповой экспертизы.

В частности метод экспертных оценок относится к первой группе.

Применения метода экспертных оценок осуществляется в случаях, когда:

- необходимо упорядочить объекты в соответствии с каким-либо свойством, но при этом не требуется точное значение данного свойства;

- необходимо упорядочить объекты в пространстве и во времени;

- свойство объекта не может быть измерено.

Метод экспертных оценок состоит в том, что эксперту предлагается присвоить числовые ранги (aij) каждому из приведенных в анкете рассматриваемых факторов. Первый ранг присваивается самому важному, по мнению, экспертов фактору. Второй ранг присваивается чуть менее важному и так далее по восходящей. В результате таких действий получается ранжирование факторов по степени важности. Результаты работы n экспертов относительно m факторов сводятся в матрицу размера (m*n), которая называется матрицей опроса. Вид матрицы приведен в таблице 1.

 

Таблица 1– Матрица опроса

 

Факторы Эксперты
  j n
  a11 aij a1n
i ai1 aij ain
m a1m amj amn

 

Далее на основании матрицы опроса по следующим формулам строится матрица преобразованных рангов:

 

Sij= amax – aij, (3)

 

где S ij – значение преобразованного ранга;

amax – значение максимального ранга матрицы;

aij – значение простого ранга.

Сумма рангов i-ой строки рассчитывается по следующей формуле:

 

, (4)

 

где R i - сумма рангов i-ой строки матрицы;

Sii – значение преобразованного ранга.

Общий вид матрицы преобразованных рангов приведен в таблице 2.

 

Таблица 2 – Матрица преобразованных рангов

 

Факторы Эксперты
    j n R
  S11 S12 S1j S1n R1
m Sm1 Sm2 Smj Smn Rm

Далее по данным матрицы преобразованных рангов определяется относительный вес каждого фактора по всем экспертам по формуле:

 

, (5)

 

где Wi – относительный вес i-го фактора;

Ri – преобразованный ранг.

Причем, сумма всех Wi должен равняться единице.

Таким образом, на основании величины относительных весов расставляются ранги для рассматриваемых факторов. Самый высокий ранг получает фактор, относительный вес которого самый маленький. Самый низкий ранг получает тот фактор, относительный вес которого самый большой.

Одним из недостатков метода экспертных оценок является субъективность экспертных оценок, поэтому для повышения степени объективности оценки проводится ранжирование сразу несколькими экспертами – специалистами. При анализе оценок, расставленных несколькими экспертами, возникает необходимость проверки их согласованности. Для этого и применяется коэффициент конкордации (согласованности) Кендалла.

 

ПРИМЕР

 

На сегодняшний день на рынке информационных технологий существует специализированное программное обеспечение для автоматизированной разработки и поддержки динамических сайтов – системы CMS (Content Management System).

Как отмечают аналитики, в последнее время наметилась тенденция к отказу частных разработчиков от систем управления сайтами собственного производства, так как большинство разработчиков понимает, что поддерживать свою разработку намного дороже и не так эффективно, как готовый продукт. На сегодняшний день конкурируют между собой отдельные, так называемые «коробочные» системы CMS, а не «коробочная» система и продукт собственного производства.

В настоящее время российский рынок систем категории CMS достаточно бурно развивается, хотя окончательно не сформирован и представлен на сегодняшний день CMS самого разного уровня.

Ассоциация CMSWatch ежегодно выпускает отчет, включающий в себя обзор рынка CMS-систем, сравнение некоторых из них.

По известности и количеству проданных копий c большим отрывом лидируют системы «Битрикс» и «NetCat».

Проведенные обзоры CMS показывают, что списки возможностей большинства систем на российском рынке примерно одинаковы.

Поэтому для автоматизированной разработки сайта электронной коммерции Domkedr.ru были изучены функциональные возможности доступных (бесплатных) и коммерческих CMS-систем управления сайтом.

В русскоязычном Интернете имеется немало материалов со сравнениями различных CMS, однако авторам статьи не встретилось сравнение пользовательских интерфейсов CMS, хотя очевидно, что удобство использования продукта напрямую связано с эффективностью его использования. А это, несомненно, один из важнейших критериев целесообразности выбора той или иной CMS.

Как известно, пользовательский интерфейс объединяет в себе все элементы и компоненты CMS, которые способны оказывать влияние на взаимодействие пользователя с ней.

Пользовательский интерфейс различных CMS, выбираемых авторами для автоматизированной разработки сайта электронной коммерции Domkedr.ru, оценивался следующими основными семью факторами:

- простота выполнения частых операций;

- доступность интерфейса;

- привычность, доступность языка интерфейсов;

- качество визуального редактирования;

- готовность к большим объемам контента;

- способы быстрого перехода;

- пользовательский тюнинг.

По этим факторам оценивался пользовательский интерфейс следующих CMS-систем:

- CMS-система SLAED;

- CMS-система Битрикс 5.1;

- CMS-система Site Sapiens 3.0;

- CMS-система UMI.CMS.

Задача выбора CMS-системы заключается в выборе такой системы, при исполь­зовании которой вся совокупность приведенных факторов (удобство использования продукта) влияет лучшим образом на эффективность использования системы. При этом предполагалось, что явно доминирующей в этом смысле CMS-системы нет.

Задача выбора представляет собой трудноформализуемую задачу, для реализации которой решено было применять методы экспертных оценок.

Сущность метода экспертных оценок заключается в проведении эксперта­ми интуитивно-логического анализа проблемы, с количественной оцен­кой суждений и формальной обработкой результатов. Полученное в ре­зультате обработки обобщенное мнение экспертов принимается как реше­ние проблемы.

Методы ранговой корреляции в этой области являются едва ли не единственным путем обобщения экспертных оценок. А коэффициенты ранговой корреляции применяются для оценки тесноты связи между количественными признаками, качественными признаками, значения которых могут быть упорядочены. Достоинство коэффициентов заключается в том, что нахождение этих коэффициентов не требует нормального распределения переменных, линейной связи между ними.

Одним из недостатков метода экспертных оценок является субъективность экспертных оценок, поэтому для повышения степени объективности оценки проводится ранжирование сразу несколькими экспертами – специалистами.

Чтобы решить задачу выбора CMS-системы, группа экспертов (специалисты в области разработки сайтов электронной коммерции) проранжировала предложенные CMS-системы по каждому фактору, влияющему на удобство использования интерфейса системы, а также сами факторы по их важности. В результате каждому фактору был приписан свой ранг, рассчитан его относительный вес и получено окончательное ранжирование факторов по степени важности; вычислена результирующая взвешенная оценка каждого из альтернативных решений (различные CMS-системы) и вычислен суммарный ранг каждой выбранной для анализа CMS-системы.

Для получения независимых экспертных заключений были опрошены 3 специалиста по разработке сайтов и Интернет - магазинов, работающих в трех различных организациях. Опрос экспертов осуществлялся с помощью анкет, в которых были перечислены факторы (критерии) оценивания пользовательского интерфейса и список анализируемых CMS-систем.

Эксперты присвоили числовые ранги каждому из приведенных в анкете рассматриваемых факторов, а так же числовые ранги каждой CMS-системе по каждому фактору. Первый ранг присваивался наименее важному, по мнению экспертов, фактору. Второй ранг - чуть более важному и так далее по восходящей. Высший ранг присваивался самому важному фактору. Экспертные оценки приведены в таблицах 3 и 4.

В таблице 3 приведены значения рангов, приписанных экспертами каждому фактору, в соответствии с его важностью при выборе CMS-системы (при анализе пользовательского интерфейса); сумма преобразованных рангов для каждого фактора; относительные веса каждого фактора по всем экспертам (расчеты велись в MS EXCEL 2003 по известным формулам).

 

Таблица 3 – Ранжирование факторов удобства интерфейса CMS-систем

 

Факторы удобства интерфейса Эксперты Ri Wi Ранг
1-й 2-й 3-й
1 Простота выполнения частых операций         0,24  
2 Доступность интерфейса         0,14  
3 Привычность, доступность языка интерфейсов           0,25  
4 Качество визуального редактирования         0,09  
5 Готовность к большим объемам контента         0,02  
6 Способы быстрого перехода         0,16  
7 Пользовательский тюнинг         0,10  

 

Из таблицы 1 видно, что самый высокий ранг получает фактор, относительный вес которого самый большой. Таким образом, при выборе CMS-системы для разработки сайтов, если обращать внимание на удобство интерфейса, важную роль играет фактор «Привычность, доступность языка интерфейсов», а наименьшую роль играет фактор «Готовность к большим объемам контента».

Так как оценивание факторов велось тремя экспертами, авторы посчитали необходимым сделать выводы о согласованности мнений экспертов. Для этого рассчитывался коэффициент конкордации (согласованности) мнений экспертов (все формулы можно найти в литературе по непараметрической статистике):

 

W = 12 ´ 168 / (32 ´ (73 – 7)) = 0,667.

 

Для окончательного подтверждения правильности и точности расставленных рангов необходимо коэффициент конкордации W проверить на статистическую значимость, то есть силу согласованности мнений экспертов оценить с помощью критерия согласия Пирсона c2.

Для проверки коэффициента согласованности мнений экспертов W на статистическую значимость при уровне значимости a = 0,05 и числе степеней свободы k = 6 были рассчитаны:

 

c2набл. = 3(7 - 1) ´ 0,667 = 12,006 и c2табл. (.0,05,6) = 1,64.

 

Из расчета видно, что c2набл. > c2табл. (.0,05,6) , значит полученное значение коэффициента конкордации (согласованности) W статистически значимо на заданном уровне значимости a, т.е. существует сильная согласованность между экспертами и их мнению можно доверять. Поэтому рассчитанные относительные веса факторов (критериев) можно использовать далее в формуле (6).

В таблице 4 приведены значения рангов, приписанных экспертами каждой СМS-системе для факторов, которыми характеризуется пользовательский интерфейс каждой системы.

 

Таблица 4 – Ранжирование CMS-систем

 

CMS-системы   Эксперты
1-й 2-й 3-й
1 Простота выполнения частых операций
CMS-система SLAED      
CMS-система Битрикс 5.1      
CMS-система Site Sapiens 3.0      
CMS-система UMI.CMS      
2 Доступность интерфейса
CMS-система SLAED      
CMS-система Битрикс 5.1      
CMS-система Site Sapiens 3.0      
CMS-система UMI.CMS      
3 Привычность, доступность языка интерфейсов
CMS-система SLAED      
CMS-система Битрикс 5.1      
CMS-система Site Sapiens 3.0      
CMS-система UMI.CMS      
4 Качество визуального редактирования
CMS-система SLAED      
CMS-система Битрикс 5.1      
CMS-система Site Sapiens 3.0      
CMS-система UMI.CMS      
5 Готовность к большим объемам контента
CMS-система SLAED      
CMS-система Битрикс 5.1      
CMS-система Site Sapiens 3.0      
CMS-система UMI.CMS      
6 Способы быстрого перехода
CMS-система SLAED      
CMS-система Битрикс 5.1      
CMS-система Site Sapiens 3.0      
CMS-система UMI.CMS      
7 Пользовательский тюнинг
CMS-система SLAED      
CMS-система Битрикс 5.1      
CMS-система Site Sapiens 3.0      
CMS-система UMI.CMS      

 

Результирующая взвешенная оценка каждого из альтернативных решений (анализируемые CMS-системы) определяется по формуле:

 

, (6)

 

где m – число экспертов;

k – число факторов, по которым оценивали CMS-системы;

– ранг i -ой CMS по q -му фактору, приписанный j -м экспертом;

– относительный вес фактора, приведенного в таблице 3.

Поскольку наиболее предпочтительной по каждому фактору CMS-системе приписывается наибольший ранг, то окончательное решение проблемы выбора можно найти, опре­делив max (х1, х2,..., хn).

Результирующая взвешенная оценка каждого из альтернативных решений (выбираемые CMS-системы), определенная по формуле (6), и результаты ранжирования приведены в таблице 5.

 

Таблица 5 - Окончательное ранжирование анализируемых CMS-систем

 

CMS-системы SLAED CMS Битрикс 5.1 Site Sapiens 3.0 UMI. CMS
1 Результирующая взвешенная оценка   8,26   7,65   6,94   6,26
2 Ранжирование систем        

 

По результатам проведенного анализа можно сделать вывод, что для автоматизированного проектирования сайта Domkedr.ru не зря была выбрана CMS-система SLAED, которая обладает удобным интерфейсом и легкостью в освоении.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2021-03-25 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: