Règle 68-95-99,7

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Illustration de la règle 68-95-99.7 (à partir d'une expérience réelle, ce qui explique l'asymétrie par rapport à la loi normale).

En statistique, la règle 68-95-99,7 (ou règle des trois sigmas[réf. nécessaire] ou règle empirique[réf. nécessaire]) indique, pour une loi normale, la proportion des valeurs se trouvant dans des intervalles centrés autour de la moyenne. Plus précisément, 68 %, 95 % et 99,7 % des valeurs se situent respectivement à moins d'un, de deux et de trois écarts types de la moyenne.

En notation mathématique, ces faits peuvent être exprimés comme suit. On note P ( . ) {\displaystyle \mathbb {P} (.)} la mesure de probabilité, X une variable aléatoire qui suit une loi normale, μ est la moyenne de la distribution, et σ est son écart-type :

P ( μ σ X μ + σ ) 0 , 6827 P ( μ 2 σ X μ + 2 σ ) 0 , 9545 P ( μ 3 σ X μ + 3 σ ) 0 , 9973 {\displaystyle {\begin{aligned}\mathbb {P} (\mu -\;\,\sigma \leq X\leq \mu +\;\,\sigma )&\approx 0,6827\\\mathbb {P} (\mu -2\sigma \leq X\leq \mu +2\sigma )&\approx 0,9545\\\mathbb {P} (\mu -3\sigma \leq X\leq \mu +3\sigma )&\approx 0,9973\end{aligned}}}


La règle des trois sigmas exprime une heuristique fréquemment utilisée : la plupart des valeurs se situent à moins de trois fois l'écart-type de la moyenne. Pour de nombreuses applications pratiques, ce pourcentage de 99,7 % peut être considéré comme une quasi-certitude. L'usage de cette heuristique dépend cependant du domaine : ainsi en sciences sociales, un résultat est considéré comme significatif si son intervalle de confiance est au moins de 95 %, soit de l'ordre de deux sigmas, alors qu'en physique des particules, le seuil de significativité se situe autour de cinq sigmas (soit un intervalle de confiance à 99,999 94 %).

Il existe des règles similaires à celles des trois sigmas pour d'autres distributions que la loi normale. En effet, l'inégalité de Bienaymé-Tchebychev permet d'affirmer que pour toute variable aléatoire, au moins 88,8 % des réalisations se situent dans un intervalle de trois sigmas.

Ces valeurs numériques (68 %, 95 % et 99,7 %) proviennent de la fonction de répartition de la loi normale.

Test de normalité

Article principal : Test de normalité.

La règle 68-95-99,7 est souvent utilisée comme approximation de la probabilité d'un phénomène à partir de l'écart-type, sous l’hypothèse que la variable aléatoire sous-jacente suit une loi normale. On peut également l'utiliser pour éliminer des données aberrantes (sous l’hypothèse de normalité) ou inversement comme test de normalité si l'on suspecte que la variable aléatoire ne suit pas la loi normale.

Pour une réalisation donnée, on calcule la différence par rapport à l'espérance si elle est connue, ou bien par rapport à une estimation de celle-ci, puis on divise par l'écart-type (ou un de ses estimateurs). Sur un échantillon, on peut ainsi calculer la distance de chaque valeur par rapport à la moyenne en nombre de sigmas. Les valeurs éloignées de plus de trois sigmas sont vraisemblablement aberrantes (sauf si l'échantillon est suffisamment grand pour que les chances d'obtenir de telles valeurs deviennent significatives ). À l'inverse, un grand nombre de valeurs éloignées de plus de trois sigmas laissent à penser que la distribution des valeurs ne suit pas une loi normale.

Par exemple, une réalisation à six sigmas de la moyenne correspond à environ une chance sur 500 millions. En d'autres termes, sur un événement à fréquence journalière, on s'attend en moyenne à une telle réalisation tous les 1,4 million d'années. En conséquence, si l'on constate une telle valeur en moins d'un million d'années, soit cette valeur est aberrante, soit la distribution sous-jacente n'est pas une distribution normale.

Valeurs numériques

Étant donné la décroissance exponentielle des queues de la distribution normale, les chances des déviations élevées décroissent très rapidement. Ces valeurs sont données pour une distribution normale, avec les fréquences moyennes des événements hors intervalle données pour un événement aléatoire à réalisation journalière.

Intervalle Proportion de la population dans l'intervalle Probabilité approximative d'apparition d'un événement hors de l'intervalle Fréquence approximative pour une réalisation journalière
μ ± 0,5 σ 0,382924922548026 2 sur 3 Environ quatre fois par semaine
μ ± σ 0,682689492137086 1 sur 3 Deux fois par semaine
μ ± 1,5 σ 0,866385597462284 1 sur 7 Une fois par semaine
μ ± 2 σ 0,954499736103642 1 sur 22 Une fois toutes les trois semaines
μ ± 2,5 σ 0,987580669348448 1 sur 81 Une fois par trimestre
μ ± 3 σ 0,997300203936740 1 sur 370 Une fois par an
μ ± 3,5 σ 0,999534741841929 1 sur 2149 Une fois tous les six ans
μ ± 4 σ 0,999936657516334 1 sur 15 787 Une fois tous les 43 ans (une à deux occurrences dans une vie)
μ ± 4,5 σ 0,999993204653751 1 sur 147 160 Une fois tous les 403 ans (une occurrence durant l'époque moderne)
μ ± 5 σ 0,999999426696856 1 sur 1 744 278 Une fois tous les 4776 ans (une occurrence depuis l'invention de l'écriture)
μ ± 5,5 σ 0,999999962020875 1 sur 26 330 254 Une fois tous les 72 090 ans (quatre occurrences depuis l'apparition d'Homo sapiens)
μ ± 6 σ 0,999999998026825 1 sur 506 797 346 Une fois tous les 1,38 million d'années (deux occurrences depuis Lucy)
μ ± 6,5 σ 0,999999999919680 1 sur 12 450 197 393 Une fois tous les 34 millions d'années (deux occurrences depuis la disparition des dinosaures)
μ ± 7 σ 0,999999999997440 1 sur 390 682 215 445 Une fois tous les 1,07 milliard d'années (quatre occurrences depuis la formation du Système solaire)
μ ± x {\displaystyle x} σ erf ( x 2 ) {\displaystyle \operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)} 1 sur 1 1 erf ( x 2 ) {\displaystyle {\tfrac {1}{1-\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)}}} Une fois tous les 1 1 erf ( x 2 ) {\displaystyle {\tfrac {1}{1-\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)}}} jours

Références

  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « 68–95–99.7 rule » (voir la liste des auteurs).
v · m
Lois discrètes
à support fini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
N paramètres de forme
à support infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
Lois absolument continues
à support compact
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
à support semi-infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
N paramètres de forme
à support infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
Autres types de lois
Lois à support mixte continu-discret
Lois à support variable
Lois multidimensionnelles
Discrètes
Continues
Matricielles
Lois directionnelles
Univariantes
Sphériques bidimensionnelles
Toroïdales bidimensionnelles
Multidimensionnelles
Lois singulières
Familles de lois
  • icône décorative Portail des probabilités et de la statistique