Изучение распределения Бернулли средствами Excel




Лабораторная работа №3-4

Схема повторных независимых испытаний

Распределение Бернулли, Пуассона, Лапласа

Цель данной работы – изучить задачу теории вероятностей о повторении однородных независимых испытаний. Для небольшого числа испытаний n < 30 эта задача была разрешена Бернулли, при большем числе испытаний используются предельные формулы Пуассона и Лапласа. При использовании компьютера область применения исходной формулы Бернулли может быть расширена до n = 200, поэтому представляется возможность оценить точность предельных формул Пуассона – Лапласа. На практическом занятия осваиваются также приемы работы с электронной таблицей Excel – как организовать вычисления по формулам Бернулли, Пуассона, Лапласа; как строятся графики зависимостей и как эти графики форматируются к стандартному виду; как работать с большими таблицами и по заданному аргументу находить в таблице значение функции; и многое другое.

 

Изучение распределения Бернулли средствами Excel

Распределение Бернулли зависит от двух параметров n и p (q = 1 – p). На рабочем листе Exсel предлагается построить графики распределения при различных значениях параметра p (0 < p < 1) и при различных значениях другого параметра n (n = 10, 20, 30, 50). Эти графики позволят заметить характерные особенности распределения Бернулли. Кроме этого, полезно убедиться, что характеристики распределения правильно воспроизводятся известными формулами: M(m) = np, D(m) = npq. Далее полезно также убедиться в справедливости правила «3-х сигм»: M(m) – 3× sm < m < M(m) + 3× sm, где ; значения m, выходящие за пределы указанного интервала, маловероятны (их вероятность меньше 0,01).

Ниже приведен фрагмент рабочего листа таблицы Excel.

  A B C D E F G H I J
  Распределение Бернулли            
  Pn(m)=n!/m!/(n-m)!*p^m*q^(n-m)            
  Pn(m)=Pn(m-1)*(n-m+1)/m*p/q Pn(0)=q^n        
                     
  n =   n =   n =   n =   n =  
  p = 0,1 p = 0,3 p = 0,5 p = 0,7 p = 0,9
  q = 0,9 q = 0,7 q = 0,5 q = 0,3 q = 0,1
  M =   M =   M =   M =   M =  
  D = 0,9 D = 2,1 D = 2,5 D = 2,1 D = 0,9
  M-3Sm= -1,84605 M-3Sm= -1,34741 M-3Sm= 0,256584 M-3Sm= 2,652587 M-3Sm= 6,15395
  M+3Sm= 3,84605 M+3Sm= 7,347413 M+3Sm= 9,743416 M+3Sm= 11,34741 M+3Sm= 11,84605
                     
  m р=0,1 m р=0,3 m р=0,5 m р=0,7 m р=0,9
    0,34868   0,02825   0,00098   5,9E-06   1E-10
    0,38742   0,12106   0,00977   0,00014   9E-09
    0,19371   0,23347   0,04395   0,00145   3,64E-07
    0,05740   0,26683   0,11719   0,00900   8,75E-06
    0,01116   0,20012   0,20508   0,03676   0,00014
    0,00149   0,10292   0,24609   0,10292   0,00149
    0,00014   0,03676   0,20508   0,20012   0,01116
    8,75E-06   0,00900   0,11719   0,26683   0,05740
    3,65E-07   0,00145   0,04395   0,23347   0,19371
    9E-09   0,00014   0,00977   0,12106   0,38742
    1E-10   5,9E-06   0,00098   0,02825   0,34868

Рассмотрим внимательно первый блок (столбцы A, B таблицы Excel).

В строках 5 и 6 задаем значения параметров n = 10, p = 0,1. В следующих строках вычисляем q = 1 – p, M = S m Pn (m), D = S m2 Pn (m) – M^2, M-3Sm = M – 3*КОРЕНЬ(D), M+3Sm = M + 3*КОРЕНЬ(D). Последние 4 формулы можно набрать позже, когда будет заполнен диапазон B14:B24, содержащий значения Pn (m). Отметим полезный прием: в столбце А записываем текст и сдвигаем его вправо, а в столбце В – вычисляем числовое значение и сдвигаем его влево. Получается понятный комментарий к выполненным действиям. Лист Excel, помимо всего прочего, является отчетным документом, поэтому не стоит экономить на комментариях и заголовках. Из информации в строках 8 – 11 первого блока, видно, что, действительно, M = np = 10´0,1 = 1; D = npq = 10´0,1´0,9 = 0,9; и что все вероятные значения m не превзойдут 4.

Значения Pn (m) удобно вычислять по реккурентной формуле (эта формула приведена в строке 3 рабочего листа). Начальное значение Pn (0) = qn вычисляем в ячейке В14. При наборе реккурентной формулы в ячейке В15 следует зафиксировать (знаками $) неизменяемые значения n, p, q. Далее формула копируется ниже до ячейки В24.

Заполнив первый блок, копируем его несколько раз вправо и в новых блоках заменяем значение параметра p на p = 0,3; p = 0,5; p = 0,7; p = 0,9. Все автоматически пересчитывается. В блоках серым фоном выделены значения Pn (m), которые признаны значимыми по правилу «3-х сигм».

Теперь строим графики. Выделяем значения m вместе с заголовком в ячейке А13, далее при нажатой клавише Ctrl выделяем мышкой значения Pn (m) для p = 0,1; 0,3; 0,5; 0,7; 0,9. Выделять диапазоны надо вместе с заголовками в строке 13, тогда эти заголовки автоматически будут отображены в легенде (пояснениях к каждой линии на графике). Вызываем Мастер диаграмм, выбираем тип диаграммы – точечная, легенда – внизу, линии сетки – основные, заголовок: “Распределение Бернулли при разных p (n=10)”. В результате получаем следующий график, который почти не требует дополнительного форматирования:

Из этого графика видно, как меняется асимметрия распределения при увеличении параметра p: при p = 0,5 распределение симметричное, при p < 0,5 – распределение скошено влево (положительная асимметрия), а при p > 0,5 – скошено вправо (отрицательная асимметрия).

Как уже указывалось выше, заголовки из строки 13 автоматически переносятся в легенду диаграммы. Но тогда хотелось бы, чтобы они автоматически корректировались при изменении параметра p. Поэтому в качестве заголовка в ячейке В13 набрана формула ="р="&ТЕКСТ(B9;"0,0"). Функция ТЕКСТ(Число;Формат) переводит в символьную форму значение p из ячейки В9; в тексте заголовка это число будет округлено до одного знака после запятой. Остальные заголовки в строке 13 корректируются автоматически при копировании.

Теперь переходим к изучению зависимости распределения Бернулли от второго параметра n. Скопируем все 5 готовых блоков вправо, начиная со столбца K, и заменим в новых блоках значения параметров: n = 10, 20, 30, 40, 50 и p = 0,1 (для всех новых блоков). Естественно, новые таблицы надо продлить вниз до строки 64 (они теперь будут иметь разную длину). Ненужную информацию можно скрыть с помощью условного форматирования. Так, таблица для n = 10 фактически обрывается на строке 24, поэтому можно сделать так, чтобы дальнейшие значения m и нулевые значения Pn (m) выводились серым цветом на белом фоне (тогда они почти не будут видны). Условный формат для колонки m задаем по условию:

Обратите внимание, что в ссылке на ячейку L8 зафиксирован только номер строки. Для колонки Pn (m) с заголовком n=10 условие будет более простое: значение равно 0. При копировании отформатированного блока, копируются также все условные форматы.

Наконец, надо заменить заголовки в строке 13 на формулы ="n="&ТЕКСТ(L8;"0").

  K L M N O P Q R S T
  n =   n =   n =   n =   n =  
  p = 0,1 p = 0,1 p = 0,1 p = 0,1 p = 0,1
  q = 0,9 q = 0,9 q = 0,9 q = 0,9 q = 0,9
  M =   M =   M =   M =   M =  
  D = 0,9 D = 1,8 D = 2,7 D = 3,6 D = 4,5
  M-3Sm= -1,84605 M-3Sm= -2,02492 M-3Sm= -1,9295 M-3Sm= -1,6921 M-3Sm= -1,36396
  M+3Sm= 3,84605 M+3Sm= 6,024922 M+3Sm= 7,929503 M+3Sm= 9,6921 M+3Sm= 11,36396
                     
  m n=10 m n=20 m n=30 m n=40 m n=50
    0,348678   0,121577   0,042391   0,014781   0,005154
    0,387420   0,270170   0,141304   0,065693   0,028632
    0,193710   0,285180   0,227656   0,142334   0,077943
    0,057396   0,190120   0,236088   0,200323   0,138565
    0,01116   0,089779   0,177066   0,205887   0,180905
    0,001488   0,031921   0,102305   0,164710   0,184925
    0,000138   0,008867   0,047363   0,106756   0,154104
    8,75E-06   0,00197   0,018043   0,057614   0,107628
    3,65E-07   0,000356   0,005764   0,026407   0,064278
    9E-09   5,27E-05   0,001565   0,010432   0,033329
    1E-10   6,44E-06   0,000365   0,003593   0,015183
        6,51E-07   7,38E-05   0,001089   0,006135
        5,42E-08   1,3E-05   0,000292   0,002215
        3,71E-09   2E-06   7E-05   0,000719
        2,06E-10   2,69E-07   1,5E-05   0,000211
        9,15E-12   3,19E-08   2,89E-06   5,63E-05
        3,18E-13   3,33E-09   5,01E-07   1,37E-05
        8,31E-15   3,04E-10   7,86E-08   3,04E-06
        1,54E-16   2,44E-11   1,12E-08   6,2E-07
        1,8E-18   1,71E-12   1,44E-09   1,16E-07
        1E-20   1,05E-13   1,68E-10   2E-08

Интересно, что хотя таблицы продолжаются до строки 64, фактически (согласно правилу "3-х сигм") их можно было оборвать на строке 25 (это отразится только на значениях M и D в строках 8, 9). Все готово для построения нового графика, из которого будет видно, как с увеличением n распределение Бернулли приближается к некой стандартной форме – к распределению Лапласа, или к, так называемому, нормальному закону распределения Гаусса.

Считается, что при n ³ 30 распределение уже практически нормальное. Этот вопрос еще будет обсуждаться ниже при изучении распределения Лапласа. Там же рассмотрим применение кумуляты.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-27 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: