ПРОБЛЕМА МНОЖЕСТВЕННЫХ ПРОВЕРОК СТАТИСТИЧЕСКИХ ГИПОТЕЗ




А.И.ОРЛОВ

 

Практика применения статистических методов часто выходит за границы математико-статистической теории. Рассмотрим проверку статистических гипотез.

Базовая теоретическая модель касается одной проверки. На практике же при выполнении того или иного прикладного исследования гипотезы зачастую проверяют неоднократно. При этом как правило остается неясным, как влияют результаты предыдущих проверок на характеристики (уровень значимости, мощность) последующих. Есть ли влияние? Как его оценить? Как его учесть при формулировке окончательных выводов?

Изучены лишь некоторые схемы множественных проверок, например, схема последовательного анализа А. Вальда или схема оценивания степени полинома в регрессии путем последовательной проверки адекватности модели (современное состояние исследований по этой проблематике описано в работе [1]). В таких исключительных постановках удается рассчитать характеристики статистических процедур.

Однако в большинстве важных для практики случаев статистические свойства процедур анализа данных, основанных на множественных проверках, остаются неизвестными. Примерами являются процедуры нахождения информативных подмножеств признаков в регрессионном анализе (см. сводку [2]) или выявления отклонений параметров в автоматизированных системах управления. В таких системах происходит слежение за большим числом параметров. Резкое изменение значения параметра свидетельствует об изменении режима работы системы, что, как правило, требует управляющего воздействия. Существует теория для определения границ допустимых

колебаний одного или фиксированного числа параметров. Например, можно использовать контрольные карты Шухарта или кумулятивных сумм, а также их многомерные аналоги. В этой области наиболее продвинутые теоретические и практические результаты в России получены школой проф. Г.Ф. Филаретова (Московский энергетический институт).

В подавляющем большинстве постановок, согласно обычно используемым вероятностным моделям, для каждого параметра, находящемся в стабильном ("налаженном") состоянии, существует хотя и малая, но положительная вероятность того, что его значение выйдет за заданные границы. Тогда система зафиксирует резкое изменение значения параметра ("ложная разладка"). При достаточно большом числе параметров с вероятностью, близкой к 1, будет обнаружено несколько "случайных сбоев", среди которых могут "затеряться" и реальные отказы подсистем. В работе [3] показано, что при большом числе параметров имеется два крайних случая - независимых (в совокупности) параметров и функционально связанных параметров, а для всех остальных систем вероятность обнаружения резкого отклонения хотя бы у одного параметра лежит между соответствующими вероятностями для крайних случаев.

Почему трудно изучать статистические процедуры, использующие множественные проверки гипотез? Причина состоит в том, что результаты последовательно проводящихся проверок не являются независимыми (в смысле независимости случайных величин). Более того, последовательность проверок зачастую задается произволом исследователя.

Проблема множественных проверок статистических гипотез - часть более общей проблемы "стыковки" (сопряжения) статистических процедур. Дело в том, что каждая процедура может применяться лишь при некоторых условиях, а в результате применения предыдущих процедур эти условия могут нарушаться. Например, часто рекомендуют перед восстановлением зависимости (регрессионным анализом) разбить данные на однородные группы с помощью какого-либо алгоритма классификации, а затем строить зависимости для каждой из выделенных групп отдельно. Здесь идет речь о "стыковке" алгоритмов классификации и регрессии. Как вытекает из рассмотрений статьи [4], попадающие в одну однородную группу результаты наблюдений зависимы и не являются гауссовыми (поскольку лежат в ограниченной по некоторым направлениям области). При этом при росте объема выборки зависимость исчезает, но ненормальность остается. Следовательно, алгоритмами регрессионного анализа, основанными на "нормальной теории", пользоваться некорректно. Согласно рекомендациям [4] целесообразно применять робастную регрессию.

Основным характеристикам статистических процедур и вытекающим из статистической практики требованиям к ним посвящена брошюра [5].

Проблема "стыковки" статистических процедур обсуждается давно (см., например, доклад [6]). Соответствующая постановка включена в "цахкадзорскую тетрадь" [7] нерешенных проблем прикладной математической статистики. С тех пор по проблеме "стыковки" был проведен ряд исследований, некоторые из которых упомянуты выше, но сколько-нибудь окончательных результатов получено не было. По нашему мнению, на скорое решение проблемы "стыковки" рассчитывать нельзя. Возможно, она является столь же "вечной", как и проблема выбора между средним арифметическим и медианой как характеристиками "центра" выборки.

Работа С.Г.Корнилова [8] - новое интересное исследование по проб-

леме повторных проверок статистических гипотез. Как уже отмечалось, теоретическое исследование является весьма сложным, сколько-нибудь интересные результаты удается получить лишь для отдельных постановок. Поэтому вполне естественно, что С.Г.Корнилов применил метод статистического моделирования на ЭВМ. Однако нельзя забывать о проблеме качества псевдослучайных чисел. Достоинства и недостатки различных алгоритмов получения псевдослучайных чисел много лет обсуждаются на страницах "Заводской лаборатории". Итоги дискуссии 1985-1993 гг. подводятся в обзоре С.М.Ермакова и комментарии [9] к нему.

В работе С.Г.Корнилова хорошо моделируется поведение статистика-прикладника. Видно, насколько мешает устаревшее представление о том, что для проверки гипотез необходимо задавать уровень значимости. Особенно оно мешает, если в дальнейшем понадобятся дальнейшие проверки. Гораздо удобнее использовать "достигаемый уровень значимости", т.е. вероятность того, что статистика критерия покажет большее отклонение от нулевой гипотезы, чем то, что соответствует имеющимся экспериментальным данным. Если есть желание, можно сравнивать "достигаемый уровень значимости" с заданными значениями 0,05 или 0,01. Так, если "достигаемый уровень значимости" меньше 0,01, то нулевая гипотеза отвергается на уровне значимости 0,01, в противном случае - принимается. Согласно рекомендациям [5] следует рассчитывать "достигаемый уровень значимости" всегда, когда для этого есть вычислительные возможности.

Переход к "достигаемому уровню значимости" может избавить прикладника от еще одной трудности, связанной с использованием непараметрических критериев. Дело в том, что их распределения, как правило, дискретны, поскольку эти критерии используют только ранги наблюдений. Поэтому невозможно построить критерий с заданным номинальным уровнем значимости, реальный уровень значимости может принимать лишь конечное число значений, среди которых, как правило, нет ни 0,05, ни 0,01, ни других популярных номинальных значений.

Невозможность построения критических областей критериев с заданными уровнями значимости затрудняет сравнение критериев по мощности, как это продемонстрировано в [10]. Есть формальный способ достичь заданного номинального уровня значимости - провести рандомизацию, т.е. при определенном значении статистики критерия провести независимый случайный эксперимент, в котором одни исходы (с заданной суммарной вероятностью) приводят к принятию гипотезы, а остальные - к ее отклонению. Однако подобную процедуру рандомизации прикладнику трудно принять - как оправдать то, что одни и те же экспериментальные данные могут быть основанием как для принятия гипотезы, так и для ее отклонения? Вспоминается обложка журнала "Крокодил", на которой один хозяйственник говорит другому: "Бросим монетку. Упадет гербом - будем строить завод, а упадет решкой - нет". Описанная процедура рандомизации имеет практический смысл лишь при массовой рутинной проверке гипотез, например, при статистическом контроле больших выборок изделий или деталей.

У критерия Стьюдента и других параметрических статистических критериев - свои проблемы. Они исходят из предположения о том, что функции распределения результатов наблюдений входят в определенные параметрические семейства небольшой размерности. Наиболее распространена гипотеза нормальности распределения. Однако давно известно, что подавляющее большинство реальных распределений результатов измерений не являются нормальными. Об этом говорится, например, в классической книге В.В.Налимова [11]. Ряд недавно полученных конкретных экспериментальных фактов и теоретических соображений рассмотрен в статье [12].

Как же быть? Проверять нормальность распределения своих данных? Но это дело непростое, можно допустить те или иные ошибки, в частности, применяя критерии Колмогорова или омега-квадрат (одна из наиболее распространенных ошибок рассмотрена в [13]). Кроме того, для сколько-нибудь надежной проверки нормальности нужны тысячи наблюдений. Поэтому в подавляющем большинстве реальных задач нет оснований принимать гипотезу нормальности. В лучшем случае можно говорить о том, что распределение результатов наблюдений мало отличается от нормального.

Как влияют отклонения от нормальности на свойства статистических процедур? Для разных процедур - разный ответ. Если речь идет об отбраковке выбросов - влияние отклонений от нормальности настолько велико, что делает процедуру отбраковки с практической точки зрения бессмысленной [14]. Если же речь идет о проверке однородности двух выборок с помощью критерия Стьюдента (при априорном предположении о равенстве дисперсий) или Крамера-Уэлча (при отсутствии такого предположения), то при росте объемов выборок влияние отклонений от нормальности убывает, как это подробно показано в статье [15]. Это вытекает из Центральной Предельной Теоремы. Правда, при этом оказывается, что процентные точки распределения Стьюдента не имеют реального смысла, достаточно использовать процентные точки предельного нормального распределения.

Весьма важна обсуждаемая С.Г.Корниловым проблема выбора статистического критерия для решения конкретной прикладной задачи. Например, как проверять однородность двух независимых выборок численных результатов наблюдений? Известны параметрические критерии: Стьюдента, Крамера-Уэлча, Лорда; непараметрические: Вилкоксона, Ван-дер-Вардена, Сэвиджа, Мартынова, Смирнова, омега-квадрат (Лемана-Розенблатта) и многие другие (см., например, [16]). Какой из них выбрать для конкретных расчетов?

Некоторые авторы предлагают формировать решающее правило на основе комбинации нескольких критериев. Например, проводить "голосование": если из 5 критериев большинство "высказывается" за отклонение гипотезы, то отвергнуть ее, в противном случае - принять. Эти авторы не всегда понимают, что в их подходе нет ничего принципиально нового, просто к уже имеющимся критериям они добавляют их комбинации - очередные варианты, тем или иным образом выделяющие критические области в пространствах возможных значений результатов измерений.

Итак, имеется некоторая совокупность критериев. У каждого - свой набор значений уровней значимости и мощностей на возможных альтернативах. Математическая статистика демонстрирует в этой ситуации виртуозную математическую технику для анализа частных случаев и полную беспомощность при выдаче практических рекомендаций. Так, оказывается, что практически каждый из известных критериев является оптимальным в том или ином смысле для какого-то набора нулевых гипотез и альтернатив. Математики изучают асимптотическую эффективность по Питмену, по Бахадуру и т.д., но - для узкого класса альтернативных гипотез, обычно для альтернативы сдвига. При попытке переноса асимптотических результатов на конечные объемы выборок возникают новые нерешенные проблемы, связанные с численным оцениванием скорости сходимости. В целом эта область математической статистики может активно развиваться многие десятилетия, выдавая "на гора" превосходные теоремы, но не давая ничего практике. Хорошо бы, чтобы этот пессимистический прогноз не оправдался!

С точки зрения прикладной статистики мы тоже изучали проблему выбора критерия однородности двух независимых выборок, в том числе методом статистических испытаний, и пришли к выводу о том, что наиболее целесообразно применять критерий Лемана-Розенблатта типа омега-квадрат [10,15,17-19]. Итоговую статью по этой тематике мы предполагаем опубликовать в журнале "Заводская лаборатория" в следующем году.

В литературе по прикладным статистическим методам, как справедливо замечает С.Г.Корнилов, имеется масса ошибочных рекомендаций. Чего стоят хотя бы принципиально неверные государственные стандарты СССР по статистическим методам, а также соответствующие им стандарты СЭВ и ИСО (о них см. обобщающую статью [20]). Особо выделяются своим количеством ошибочные рекомендации по применению критерия Колмогорова для проверки нормальности (см. ссылки в консультации [13]). К сожалению, нет способа оградить инженера и научного работника, нуждающегося в применении статистических методов, от литературы и нормативно-технических документов с ошибками. Единственный способ - либо постоянно поддерживать контакты с квалифицированными специалистами, либо самому стать таким.

С конкретными рекомендациями С.Г.Корнилова трудно полностью согласиться. Фактически он рекомендует как можно сильнее уменьшить уровень значимости, т.е. как можно чаще принимать нулевую гипотезу. Формула, определяющая "регламент повторных проверок" по С.Г.Корнилову, оценивает величину А (уровень значимости) с весьма большим "запасом". Кроме того, надо заранее выбрать максимально возможное число проверок.

Проблему надо ставить так: как оценить достигаемый уровень значимости конкретного критерия, предусматривающего повторные проверки? Сразу ясно, что в большинстве случаев никакая современная теория математической статистики не поможет. Остается использовать современные компьютеры. Методика статистического моделирования, проведенного С.Г.Корниловым при подготовке статьи, должна стать ежедневным рабочим инструментом специалиста, занимающегося применением статистических методов. Для этого она должна быть реализована в виде соответствующей диалоговой программной системы. Современные персональные компьютеры позволяют проводить статистическое моделирование весьма быстро (за доли секунд). Можно использовать различные модификации бутстрепа - одного из вариантов применения статистического моделирования (реальные возможности бутстрепа как статистического метода обсуждаются в [21]).

Проведенное обсуждение показывает, как много нерешенных проблем стоит перед специалистом, занимающимся, казалось бы, рутинным применением стандартных статистических процедур. Прикладная математическая статистика - молодая наука, ее основные проблемы, по нашему мнению, еще не решены. Много работы как в сравнительно новых областях, например, в анализе нечисловых данных (см., например, [22-24]), так и в классических, одной из которых посвящена настоящая статья.

 

ЛИТЕРАТУРА

1. Орлов А.И./Заводская лаборатория. 1994. Т.60. Nо.5. С.43-47.

2. Орлов А.И./Заводская лаборатория. 1995. Т.61. No.1, с.56-58.

3. Орлов А.И. - В сб.: Статистика, вероятность, экономика. - М.: Наука, 1985. С.323-326.

4. Орлов А.И. - В сб.: Прикладная статистика.- М.: Наука, 1983. С.166-179.

5. Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики. - М.: ВНИИС, 1987. - 64 с.

6. Орлов А.И. - В сб.: Тезисы докладов Всесоюзной школы "Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа". - Ереван, ВЦ Госплана АрмССР, 1979. С.104-113.

7. Загоруйко Н.Г., Орлов А.И.- В сб.: Современные проблемы кибернетики (прикладная статистика). - М.: Знание, 1981. С.3-14.

8. Корнилов С.Г. Накопление ошибки первого рода при повторной проверке статистических гипотез. Регламент повторных проверок/Заводская лаборатория. 1996. Т.62. Nо.5.

9. Орлов А.И./Заводская лаборатория. 1993. Т.59. No.7. С.51-51.

10. Камень Ю.Э., Камень Я.Э., Орлов А.И./ Заводская лаборатория. 1986. Т.52. No.12. С.55-57.

11. Налимов В.В. Применение математической статистики при анализе вещества. - М.:Физматгиз,1960. 430 с.

12. Орлов А.И./Заводская лаборатория. 1991. Т.57. No.7. С.64-66.

13. Орлов А.И./Заводская лаборатория. 1985. Т.51. No.1. С.60-62.

14. Орлов А.И./Заводская лаборатория. 1992. Т.58. No.7. С.40-42.

15. Орлов А.И./Вестник Академии медицинских наук СССР. 1987. No.2. С.88-94.

16. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. Изд.3-е.- М.: Наука, 1983. - 416 с.

17. Камень Ю.Э., Камень Я.Э., Орлов А.И., Фомин В.Н. - В сб.: Тезисы докладов III Всесоюзной школы-семинара "Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа".- М.: ЦЭМИ АН СССР, 1987. С.200-201.

18. Орлов А.И., Фомин В.Н./ Надежность и контроль качества. 1988. No.12. С.3-9.

19. Орлов А.И., Фомин В.Н. - В сб.: Тезисы докладов научно-технической конференции "Стандартизация контроля качества и надежности промышленной продукции".- Горький, Гф ВНИИНМАШ, 1989. С.58-59.

20. Орлов А.И./Заводская лаборатория. 1992. Т.58. No.1. С.67-74.

21. Орлов А.И./Заводская лаборатория. 1987. Т.53. No.10. С.82-85.

22. Орлов А.И./Заводская лаборатория. 1990. Т.56. No.3. С.76-83.

23. Орлов А.И./Заводская лаборатория. 1995. Т.61. No.3. С.43-52.

24. Орлов А.И./Заводская лаборатория. 1995. Т.61. No.5. С.43-51.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-11-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: