В чем принципиальная новизна нечисловой статистики? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.
Кратко рассмотрим несколько идей, развиваемых в статистике объектов нечисловой природы для данных, лежащих в пространствах произвольного вида. Решаются классические задачи описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами.
Первой обсудим проблему определения средних величин. В рамках репрезентативной теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения [35]. В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Для теоретического среднего это - задача минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственным элементом пространства, а состоять из множества таких элементов, которое может оказаться и пустым. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость эмпирических средних к теоретическим.
|
Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики [26]. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в интервальной статистике.
В статистике в пространствах произвольной природы большую роль играют непараметрические оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в частности, доказана их состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном случае с той, которая имеет быть в классической теории для числовых случайных величин.
|
Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.
Для проверки гипотез могут быть использованы статистики интегрального типа, в частности, типа омега-квадрат. Любопытно, что предельная теория таких статистик, построенная первоначально в классической постановке [76], приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида [77], поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством.
Представляют интерес результаты, связанные с конкретными областями статистики объектов нечисловой природы, в частности, со статистикой нечетких множеств [78], со случайными множествами [35] (следует отметить, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств [35,78]), с непараметрической теорией парных сравнений [72], с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы [71].
|
Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации. С другой стороны, наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, в рамках статистики объектов нечисловой природы. Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа). Современное состояние дискриминантного и кластерного анализа с точки зрения статистики объектов нечисловой природы отражено работах в [79].
Статистические методы анализа нечисловых данных особенно хорошо приспособлены для применения в экономике, социологии и экспертных оценках, поскольку в этих областях от 50% до 90% данных являются нечисловыми [80].
Заключение
Мы рассмотрели пять "точек роста" прикладной статистики как методической дисциплины. Разумеется, они не исчерпывают все многообразие фронта научных исследований в этой области. В частности, решены отнюдь не все проблемы, поставленные в конце 70-х годов в т.н. "цахкадзорской тетради" [81]. Кроме того, мы почти не затрагивали разнообразные применения статистических методов в конкретных прикладных областях. Много интересных проблем есть в планировании экспериментов, особенно кинетических (см., например, статьи [2,82]), при анализе проблем надежности (см., в частности, статью [83]), в новых статистических методах управления качеством продукции, в том числе в связи с идеями Г.Тагути (см. об этом статью [84]), в вопросах экологии и безопасности [75], и др.
В течение последних более чем 60 лет в России наблюдается огромный разрыв между государственной статистикой и научным сообществом специалистов по статистическим методам (подробнее об этом см.[19]). В учебнике по истории статистики [14] даже не упоминаются имена членов-корреспондентов АН СССР Н.В.Смирнова и Л.Н.Большева! Поэтому нет ничего удивительного в том, что тенденции развития современной прикладной математической статистики столь же мало обсуждаются отечественными авторами, как и ее история. Буду рад, если настоящая статья положит начало дискуссии о будущем нашей науки.
ЛИТЕРАТУРА
1. Орлов А.И. / Вестник статистики. 1986, № 8. С.52 - 56
2. Горский В.Г. - В сб.: Международная школа повышения квалификации "Инженерно-химическая наука для передовых технологий". Труды третьей сессии, 26-30 мая 1997. Казань, Россия / Под ред. В.А.Махлина. - М.: Научно-Исследовательский Физико-Химический Институт им.Карпова, 1997. С.261-293.
3. Гуда А.Н. Модели, методы и средства анализа данных в затрудненных условиях. Автореф. дисс. докт. технич. наук. - Таганрог: Таганрогский государственный радиотехнический университет, 1997. 38 с.
4. Налимов В.В. Применение математической статистики при анализе вещества. - М.: Физматгиз, 1960. - 430 с.
5. Налимов В.В., Чернова Н.Л. Статистические методы планирования экстремальных экспериментов. - М.: Физматгиз, 1965. - 340 с.
6. Налимов В.В. Канатоходец. Воспоминания. - М.: Издательская группа "Прогресс", 1994. - 456 с.
7. Гнеденко Б.В., Орлов А.И. / Заводская лаборатория. 1988. Т.54. № 1. С.1-4.
8. Горский В.Г. / Заводская лаборатория. 1992. Т.58. № 1. С.63-64.
9. Орлов А.И. / Заводская лаборатория. 1992. Т.58. № 1. С.67-74.
10. Комаров Д.М., Орлов А.И. - В сб.: Вопросы применения экспертных систем. - Минск: Центросистем, 1988. С.151-160.
11. Ленин В.И. Развитие капитализма в России. Процесс образования внутреннего рынка для крупной промышленности. - М.: Политиздат, 1986. - XII, 610 с.
12. Гнеденко Б.В. Курс теории вероятностей: Учебник. - Изд. 6-е,
перераб. и доп. - М.: Наука, Гл. ред. физ.-мат. лит., 1988. - 448 с.
13. Клейн Ф. Лекции о развитии математики в 19 столетии. Часть I. - М.
-Л.: Объединенное научно-техническое издательство НКТП СССР, 1937. - 432 с.
14. Плошко Б.Г., Елисеева И.И. История статистики: Учеб. пособие. - М.:
Финансы и статистика. 1990. - 295 с.
15. Гнеденко Б.В. Математическая статистика и контроль качества. - М.: Знание, 1976. - 64 с.
16. Орлов А.И. / Заводская лаборатория. 1997. Т.63. № 3. С.55-62.
17. Бернштейн С.Н. В сб.: Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. - М.-Л.: ГИЗ, 1928. С.50-63.
18. Орлов А.И. / Надежность и контроль качества. 1987. № 6. С. 54-59.
19. Орлов А.И. / Вестник статистики. 1990, № 1. С.65 - 71.
20. Кендалл М., Стьюарт А. Теория распределений. - М.: Наука, 1966. 566 с.
20. Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973. 899 с.
20. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. - М.: Наука, 1976. 736 с.
23. Налимов В.В., Мульченко З.М. Наукометрия. Изучение развития науки как информационного процесса. - М.:Наука, 1969. 192 с.
24. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов. 1984. - 53 с.
25. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).
26. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983. - 471 с.
27. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. - М.: Финансы и статистика, 1985. - 488 с.
28. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607 с.
29. Орлов А.И. / Надежность и контроль качества. 1991. № 8. С.3-8.
30. Орлов А.И. / Заводская лаборатория. 1995. Т.61. № 7. С.59-61.
31. Холландер М., Вулф Д. Непараметрические методы статистики. - М.: Финансы и статистика, 1985.
32. Орлов А.И. /Заводская лаборатория. 1991. Т.57. № 7. С.64-66.
33. Хьюбер П. Робастность в статистике. - М.: Мир, 1984. - 304 с.
34. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. - М.: Мир, 1989. - 512 с.
35. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
36. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания: Статистическая обработка неоднородных совокупностей. - М;: Статистика, 1980. - 208 с.
37. Благовещенский Ю.Н. - В сб.: Тезисы докладов Международной конференции по теории вероятностей и математической статистике. Вильнюс, 25-30 июня 1973 г. Т.1. - Вильнюс: Изд-во Вильнюсского госуниверситета, 1973. С.77-78.
39. Efron B. / Ann. Statist. 1979. V.7. № 1. P.1-26.
40. Диаконис П., Эфрон Б. / В мире науки. 1983. № 7. С.60-73.
41. Подборка статей по бутстрепу / Заводская лаборатория. 1987. Т.53. № 10. С.76-99.
42. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. 263 с.
43. Орлов А.И. /Заводская лаборатория. 1987. Т.53. № 10. С.82-85.
44. Дискуссия по анализу интервальных данных / Заводская лаборатория. 1990. Т.56. № 7. С.75-95.
45. Сборник трудов Международной конференции по интервальным и стохастическим методам в науке и технике. Тт. 1,2. - М.: МЭИ, 1992.
46. Шокин Ю.И. Интервальный анализ. - Новосибирск: Наука, 1981. 284 с.
47. Вощинин А.П. Метод оптимизации объектов по интервальным моделям целевой функции. - М.: МЭИ, 1987. 109 с.
48. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. - М.: МЭИ - София: Техника, 1989. 224 с.
49. Вощинин А.П., Акматбеков Р.А. Оптимизация по регрессионным моделям и планирование эксперимента. - Бишкек: Илим, 1991. 164 с.
50. Дывак Н.П. Разработка методов оптимального планирования эксперимента и анализа интервальных данных. Автореф. дисс. канд.. технич. наук. - М.: МЭИ, 1992. 20 с.
51. Симов С.Ж. Разработка и исследование интервальных моделей при анализе данных и проектировании экспертных систем. Автореф. дисс. канд.. технич. наук. - М.: МЭИ, 1992. 20 с.
52. Орлов А.И. / Заводская лаборатория. 1990, Т.56. № 7. С.86-89.
53. Orlov A.I. / Interval Computations. 1992. № 1(3). Р.44-52.
54. Орлов А.И. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1995. С. 114-124.
55. Прикладная статистика. Методы обработки данных. Основные требования и характеристики. - М.: ВНИИСтандартизации, 1987. - 64 с.
56. Орлов А.И. / Заводская лаборатория. 1990. Т.56. № 3. С.76-83.
57. Орлов А.И. / Заводская лаборатория. 1995. Т.61. № 3. С.43-52.
58. Орлов А.И. / Заводская лаборатория. 1996. Т.62. № 1. С.54-60.
59. Суппес П., Зинес Дж. - В сб.: Психологические измерения. -М: Мир,1967. С. 9-110.
60. Пфанцагль И. Теория измерений. - М.: Мир, 1976. 166 с.
61. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. - М.: Мир, 1976. 168 с.
62. Дэвид Г. Метод парных сравнений. - М.: Статистика, 1978. 144 с.
63. Матерон Ж. Случайные множества и интегральная геометрия. - М.: Мир, 1978. 318 с.
64. Терехина А.Ю. Анализ данных методами многомерного шкалирования. - М.: Наука, 1986. 168 с.
65. Перекрест В.Т. Нелинейный типологический анализ социально-экономической информации: Математические и вычислительные методы. - Л.: Наука, 1983. 176 с.
66. Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. - М.: Советское радио, 1972. 192 с.
67. Орлов А.И. / Заводская лаборатория. 1995. Т.61. № 5. С.43-51.
68. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1981. - 80 с.
69. Литвак Б.Г. Экспертная информация: Методы получения и анализа. - М.: Радио и связь, 1982. 184 с.
70. Орлов А.И. - В сб.: Экспертные оценки. Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. С.17-33.
71. Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - 220 с.
72. Рыданова Г.В. Некоторые вопросы статистического анализа случайных бинарных векторов. Автореф. дисс. канд. физ.-мат. наук. - М.: МГУ, 1988. 16 с.
73. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. Вербальный анализ решений. - М.: Наука, 1996. 208 с.
74. Литвак Б.Г. Экспертные оценки и принятие решений. - М.: Патент, 1996. 271 с.
75. Управление большими системами. Материалы международной научно-практической конференции (22-26 сентября 1997 г., Москва, Россия). Общая редакция - Бурков В.Н., Новиков Д.А. - М.: СИНТЕГ, 1997. 432 с.
76. Орлов А.И. / Доклады АН СССР. 1974. Т.219. № 4. С.808-811.
77. Орлов А.И. - В сб.: Вероятностные процессы и их приложения. - М.: МИЭМ, 1989. С.118-123.
78. Орлов А.И. Задачи оптимизации и нечеткие переменные. - М.: Знание, 1980. - 64 с.
79. Орлов А.И. / Социология: методология, методы, математические модели. 1992. № 2. С.28-50.
80. Титма М.Х., Тоодинг Л.М. / Социологические исследования. 1986. № 4. С.123-128.
81. Загоруйко Н.Г., Орлов А.И. - В сб.: Современные проблемы кибернетики (прикладная статистика). - М.: Знание, 1981. С.53-63.
82. Горский В.Г., Денисов В.И., Иткина Н.Б. / Заводская лаборатория. 1992. Т.58. № 1. С.64-67.
83. Тескин О.И. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1995. С. 227 - 236.
84. Адлер Ю.П., Талалай А.М. / Курс на качество. 1992. № 3-4. С.85-93.