Twierdzenie de Moivre’a-Laplace’a

Wraz ze wzrostem liczby prób n {\displaystyle n} wykres rozkładu dwumianowego coraz bardziej przypomina wykres krzywej Gaussa.

Twierdzenie de Moivre’a-Laplace’a – dwa twierdzenia rachunku prawdopodobieństwa nazywane lokalnym i całkowym (integralnym) wskazujące związek rozkładu dwumianowego (Bernoulliego) z rozkładem normalnym; można traktować go jako szczególny przypadek centralnego twierdzenia granicznego.

Przypadek symetryczny pochodzi z wydrukowanej w 1730 roku pracy Miscellanea analytica de seriebus et quadraturis („Rozmaite analityka o szeregach i kwadraturach”)[1] od Abrahama de Moivre’a, a niesymetryczny – z opublikowanego w trzy lata później dodatku Miscelaneis analyticis supplementum z 1733 roku; szerszej publiczności twierdzenia zaprezentowane zostały w drugim wydaniu dzieła The Doctrine of Chances: or, a method for calculating the probabilities of events in play („Doktryna szans: lub, metoda obliczania prawdopodobieństw zdarzeń w grze”) z 1738 roku. Twierdzenie w pełnej ogólności udowodnił Pierre Simon de Laplace w pracy Théorie analytique des probabilités („Analityczna teoria prawdopodobieństw”) z 1812 roku, który nie miał w zwyczaju powoływać się na źródła – z tego powodu do XX wieku prace Moivre’a były szerzej nieznane[2].

Twierdzenia de Moivre’a-Laplace’a

Oznaczenia
Niech B ( n , p ) {\displaystyle B(n,p)} oznacza rozkład dwumianowy dla procesu Bernoulliego, w którym prawdopodobieństwo osiągnięcia dokładnie k {\displaystyle k} sukcesów o prawdopodobieństwie p {\displaystyle p} w n {\displaystyle n} próbach dane jest wzorem
B k ( n , p ) = P ( S n = k ) = ( n k ) p k q n k , {\displaystyle B_{k}(n,p)=\mathbb {P} (S_{n}=k)={\tbinom {n}{k}}p^{k}q^{n-k},}
gdzie q = 1 p {\displaystyle q=1-p} jest prawdopodobieństwem porażki, a S n {\displaystyle S_{n}} oznacza liczbę sukcesów; ponadto niech μ = n p {\displaystyle \mu =np} oraz σ = n p q {\displaystyle \sigma ={\sqrt {npq}}} oznaczają odpowiednio wartość oczekiwaną i odchylenie standardowe tego rozkładu.
Rozpatrywana będzie unormowana wersja powyższego rozkładu, tzn. jego wartość oczekiwana będzie równa zeru, a jego wariancja (odchylenie standardowe) będzie jednostkowa, czyli zamiast liczby sukcesów S n {\displaystyle S_{n}} rozważana będzie jej unormowana wersja S n = S n μ σ . {\displaystyle S_{n}^{*}={\frac {S_{n}-\mu }{\sigma }}.} W związku z tym niżej stosowane będą również następujące oznaczenia: h = 1 σ {\displaystyle h={\frac {1}{\sigma }}} to szerokość przedziału klasowego, k = k μ σ {\displaystyle k^{*}={\frac {k-\mu }{\sigma }}} to unormowane odchylenie liczby sukcesów od średniej; wygodnie będzie zakładać, że k {\displaystyle k} nie musi być naturalne – w szczególności k ± = k ± 1 2 , {\displaystyle k_{\pm }=k\pm {\frac {1}{2}},} skąd k ± = k ± 1 2 h . {\displaystyle k_{\pm }^{*}=k\pm {\frac {1}{2}}h.}
Funkcja φ ( t ) = 1 2 π exp ( t 2 2 ) {\displaystyle \varphi (t)={\frac {1}{\sqrt {2\pi }}}\exp \left(-{\frac {t^{2}}{2}}\right)} będzie oznaczać gęstość unormowanego rozkładu normalnego N ( 0 , 1 ) {\displaystyle N(0,1)} o dystrybuancie Φ , {\displaystyle \Phi ,} podczas gdy φ ( t ) = h φ ( t ) = 1 σ 2 π exp ( ( t μ ) 2 2 σ 2 ) {\displaystyle \varphi _{*}(t)=h\varphi (t^{*})={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {(t-\mu )^{2}}{2\sigma ^{2}}}\right)} będzie oznaczać gęstość rozkładu normalnego N ( μ , σ ) {\displaystyle N(\mu ,\sigma )} o dystrybuancie Φ ( x ) = Φ ( x ) . {\displaystyle \Phi _{*}(x)=\Phi (x^{*}).}
Twierdzenie lokalne
Jeżeli h | k | max ( p , q ) 1 2 , {\displaystyle h|k^{*}|\max(p,q)\leqslant {\frac {1}{2}},} to
B k ( n , p ) = h φ ( k ) e R ( n , k ) , {\displaystyle B_{k}(n,p)=h\varphi (k^{*})\cdot e^{R(n,k)},}
gdzie
| R ( n , k ) | 3 4 | k | h + 1 3 | k | 3 h + 1 3 n . {\displaystyle {\big |}R(n,k){\big |}\leqslant {\tfrac {3}{4}}|k^{*}|h+{\tfrac {1}{3}}|k^{*}|^{3}h+{\tfrac {1}{3n}}.}
W szczególności R ( n , k ) 0 {\displaystyle R(n,k)\to 0} dla n , k , {\displaystyle n,k\to \infty ,} czyli
P ( S n = k ) φ ( k ) . {\displaystyle \mathbb {P} (S_{n}=k)\sim \varphi _{*}(k).}
Twierdzenie całkowe
Jeżeli h max ( | a | , | b | ) max ( p , q ) 1 2 , {\displaystyle h\max {\big (}|a^{*}|,|b^{*}|{\big )}\max(p,q)\leqslant {\frac {1}{2}},} to
P ( a S n b ) = ( Φ ( b + ) Φ ( a ) ) e D ( n , a , b ) , {\displaystyle \mathbb {P} (a\leqslant S_{n}\leqslant b)={\Big (}\Phi \!\left(b_{+}^{*}\right)-\Phi \!\left(a_{-}^{*}\right)\!\!{\Big )}\cdot e^{D(n,a,b)},}
gdzie
| D ( n , a , b ) | max k { a , b } ( 5 4 | k | h + 1 3 | k | 3 h ) + 1 3 n + 1 8 h 2 . {\displaystyle {\big |}D(n,a,b){\big |}\leqslant \max _{k\in \{a,b\}}{\Big (}{\tfrac {5}{4}}|k^{*}|h+{\tfrac {1}{3}}|k^{*}|^{3}h{\Big )}+{\tfrac {1}{3n}}+{\tfrac {1}{8}}h^{2}.}
W szczególności D ( n , a , b ) 0 {\displaystyle D(n,a,b)\to 0} dla n {\displaystyle n\to \infty } oraz a , b {\displaystyle a,b} zmieniających się tak, by h ( a ) 3 ,   h ( b ) 3 0 , {\displaystyle h(a^{*})^{3},\ h(b^{*})^{3}\to 0,} jest wtedy
P ( a S n b ) Φ ( b + ) Φ ( a ) ; {\displaystyle \mathbb {P} (a\leqslant S_{n}\leqslant b)\sim \Phi _{*}(b_{+})-\Phi _{*}(a_{-});}
zachodzi również następujące, mniej dokładne, ale prostsze, a przez to częściej stosowane, przybliżenie:
P ( a S n b ) Φ ( b ) Φ ( a ) . {\displaystyle \mathbb {P} (a\leqslant S_{n}\leqslant b)\sim \Phi _{*}(b)-\Phi _{*}(a).}

W zastosowaniach najczęściej spotyka się następujący wniosek z twierdzenia całkowego:

Wniosek
Jeżeli a , b {\displaystyle a^{*},b^{*}} są stałe, to
P ( a S n b ) Φ ( b + ) Φ ( a ) . {\displaystyle \mathbb {P} (a^{*}\leqslant S_{n}^{*}\leqslant b^{*})\sim \Phi \!\left(b_{+}^{*}\right)-\Phi \!\left(a_{-}^{*}\right).}

Przykłady

Liczebność próby
Twierdzenie de Moivre’a-Laplace’a można wykorzystać do określenia minimalnej liczebności próby losowej z danej populacji w danym badaniu mającym na celu jak najbardziej miarodajne oszacowanie danej obserwacji, która zachodzi z pewnym prawdopodobieństwem, bądź nie (tj. zachodzącej zgodnie z rozkładem zero-jedynkowym). Przykładowo: w badaniu przesiewowym choroby, która jest na tyle rzadka, że nie choruje na nią więcej niż 0 , 5 % {\displaystyle 0{,}5\%} populacji, przy czym błąd ma być mniejszy niż 0,001 {\displaystyle 0{,}001} z prawdopodobieństwem 0 , 95 , {\displaystyle 0{,}95,} w celu wskazania chorych z ustaloną pewnością należałoby wybrać próbę co najmniej 19 112 {\displaystyle 19\,112} -osobową[3].
Reguła 3σ
Opierając się na twierdzeniu całkowym można się spodziewać, że reguła trzech sigm sformułowana dla rozkładu normalnego zachodzi również dla procesu Bernoulliego. Jedną z jej wersji jest
P ( S n ( μ 3 σ , μ + 3 σ ) ) 0,997 , {\displaystyle \mathbb {P} {\big (}S_{n}\in (\mu -3\sigma ,\mu +3\sigma ){\big )}\geqslant 0{,}997,}
o ile μ 3 σ > 0 {\displaystyle \mu -3\sigma >0} oraz μ + 3 σ < n , {\displaystyle \mu +3\sigma <n,} co można krótko zapisać n > 9 max ( p q , q p ) {\displaystyle n>9\max \left({\frac {p}{q}},{\frac {q}{p}}\right)} [4].

Przypisy

  1. W pracy, którą autor przekazał jedynie kilku znajomym, pojawia się wzór postaci n ! C n n n e n , {\displaystyle n!\sim C{\sqrt {n}}n^{n}e^{-n},} gdzie ln C = 1 1 12 + 1 360 1 1260 + 1 1680 , {\displaystyle \ln C=1-{\frac {1}{12}}+{\frac {1}{360}}-{\frac {1}{1260}}+{\frac {1}{1680}}-\dots ,} który posłużył do wyprowadzenia opisanych w tym artykule twierdzeń, znany obecnie jako wzór Stirlinga, przy czym James Stirling zauważył jedynie, że C = 2 π , {\displaystyle C={\sqrt {2\pi }},} o czym autor wspomina w drugim wydaniu tej pracy 1933 roku z dwoma dodatkami.
  2. Szczegóły można znaleźć w artykułach Raymonda Clare Archibalda i Karla Pearsona z 1926 roku zebranych w tej pracy.
  3. Skoro p {\displaystyle p} oznacza prawdopodobieństwo zapadnięcia jednostki na daną chorobą, a S n n {\displaystyle {\frac {S_{n}}{n}}} jest oszacowaniem procenta chorych w populacji, to P ( | S n n p | 0,001 ) 0 , 95 , {\displaystyle \mathbb {P} {\big (}\left|{\frac {S_{n}}{n}}-p\right|\leqslant 0{,}001{\big )}\geqslant 0{,}95,} skąd P ( | S n | 0,001 n p q ) 0 , 95. {\displaystyle \mathbb {P} {\big (}|S_{n}^{*}|\leqslant 0{,}001{\sqrt {\frac {n}{pq}}}{\big )}\geqslant 0{,}95.} W tablicach statystycznych można znaleźć, iż Φ ( 1 , 96 ) = 0,975 {\displaystyle \Phi (1{,}96)=0{,}975} (gdyż wtedy Φ ( 1 , 96 ) Φ ( 1 , 96 ) = 0 , 95 {\displaystyle \Phi (1{,}96)-\Phi (-1{,}96)=0{,}95} ), dlatego n {\displaystyle n} powinno spełniać warunek n 1 , 96 1000 p q , {\displaystyle {\sqrt {n}}\geqslant 1{,}96\cdot 1000{\sqrt {pq}},} a ponieważ p 0,005 , {\displaystyle p\leqslant 0{,}005,} to p q {\displaystyle pq} przyjmuje największą wartość dla p = 0,005 , {\displaystyle p=0{,}005,} zatem n 19 112. {\displaystyle n\geqslant 19\,112.}
  4. Dla przypadku symetrycznego p = q = 1 2 {\displaystyle p=q={\frac {1}{2}}} oznacza to, że n 10 ; {\displaystyle n\geqslant 10;} w przypadku n = 10 {\displaystyle n=10} prawdopodobieństwo wynosi 1022 1024 0,998 05 ; {\displaystyle {\frac {1022}{1024}}\approx 0{,}99805;} liczbę 0,997 {\displaystyle 0{,}997} wzięto zapewne od popularnego oszacowania dla rozkładu normalnego, dla którego Φ ( 3 ) Φ ( 3 ) = 0,997 3 {\displaystyle \Phi (3)-\Phi (-3)=0{,}9973\dots } Twierdzenie to można wzmacniać korzystając z wyników w rodzaju nierówności Bernsteina.
  • БРЭ: 2235872
  • VLE: moivre-o-ir-laplace-o-teorema