Disuguaglianza di Markov

Niente fonti!
Questa voce o sezione sull'argomento matematica non cita le fonti necessarie o quelle presenti sono insufficienti.

In teoria della probabilità e statistica, la disuguaglianza di Markov afferma che, per una variabile casuale X {\displaystyle X} non negativa il cui valore atteso esiste:

P ( X α ) E [ X ] α {\displaystyle P\left(X\geq \alpha \right)\leq {\frac {\mathbb {E} [X]}{\alpha }}}

Questa disuguaglianza permette di stabilire un limite superiore al valore di probabilità dalla sola conoscenza del valore atteso E [ x ] , {\displaystyle \mathbb {E} [x],} a condizione che la variabile casuale sia definita non negativa.

La disuguaglianza di Markov è anche utilizzata nella dimostrazione della disuguaglianza di Čebyšëv.

Dimostrazione

Si definiscano le variabili casuali X {\displaystyle X} ed I {\displaystyle I} come segue:

X : Ω R 0 + , {\displaystyle X:\Omega \rightarrow \mathbb {R} _{0}^{+},}

con Ω {\displaystyle \Omega } spazio campionario e

  I = { 1 X α 0 X < α {\displaystyle \ I=\left\{{\begin{matrix}1&\iff &X\geq \alpha \\0&\iff &X<\alpha \end{matrix}}\right.}

con α R + . {\displaystyle \alpha \in \mathbb {R} ^{+}.} Chiaramente per ogni α {\displaystyle \alpha } non nullo, vale la seguente disuguaglianza larga   0 I X α . {\textstyle \ 0\leq I\leq {\frac {X}{\alpha }}.}

Supponiamo inoltre che per la variabile aleatoria X {\displaystyle X} esiste E [ X ] , {\displaystyle \mathbb {E} [X],} allora:

P ( X α ) = E [ I ] . {\displaystyle P\left(X\geq \alpha \right)=\mathbb {E} [I].}

Il valore atteso è definito come somma di tutti i valori che la variabile aleatoria può assumere moltiplicati per la probabilità che tale variabile assuma effettivamente tali valori: nel nostro caso

E [ I ] = 0 P ( I = 0 ) + 1 P ( I = 1 ) = P ( I = 1 ) . {\displaystyle \mathbb {E} [I]=0\cdot P(I=0)+1\cdot P(I=1)=P(I=1).}

Ma ancora, la probabilità che I {\displaystyle I} sia uguale a 1 è proprio la probabilità che X {\displaystyle X} sia maggiore o uguale ad α {\displaystyle \alpha }

E [ I ] E [ X α ] . {\displaystyle \mathbb {E} [I]\leq \mathbb {E} \left[{\frac {X}{\alpha }}\right].}

Il valore atteso mantiene la disuguaglianza degli argomenti poiché si tratta di una funzione non decrescente, in vista del fatto che gli argomenti sono variabili non negative. Basti pensare alla definizione di valore atteso, nel caso discreto e quello continuo, la quale genera serie a termini positivi in un caso, e integrali di funzioni positive nell'altro.

E [ X α ] = E [ X ] α {\displaystyle \mathbb {E} \left[{\frac {X}{\alpha }}\right]={\frac {\mathbb {E} [X]}{\alpha }}}

Per la linearità del valore atteso. Quindi si conclude che

P ( X α ) E [ X ] α . {\displaystyle P\left(X\geq \alpha \right)\leq {\frac {\mathbb {E} [X]}{\alpha }}.}

Disuguaglianza di Čebyšëv

Partendo dall'appena dimostrata disuguaglianza possiamo ottenere, come corollario, il seguente enunciato:

P ( | X E [ X ] | γ ) V a r ( X ) γ 2 {\displaystyle P(|X-\mathbb {E} [X]|\geq \gamma )\leq {\frac {Var(X)}{\gamma ^{2}}}}

con parametro γ {\displaystyle \gamma } positivo. Per farlo definiamo una variabile aleatoria X : Ω R {\displaystyle X:\Omega \rightarrow \mathbb {R} } e associamo ad essa la variabile aleatoria Y = ( X E [ X ] ) 2 . {\displaystyle Y=(X-\mathbb {E} [X])^{2}.}

Così definita Y {\displaystyle Y} è una variabile aleatoria non negativa, pertanto applichiamo ad essa la disuguaglianza di Markov, ottenendo

P ( Y γ 2 ) E [ Y ] γ 2 P ( ( X E [ X ] ) 2 γ 2 ) E [ ( X E [ X ] ) 2 ] γ 2 {\displaystyle P\left(Y\geq \gamma ^{2}\right)\leq {\frac {\mathbb {E} [Y]}{\gamma ^{2}}}\iff P\left((X-\mathbb {E} [X])^{2}\geq \gamma ^{2}\right)\leq {\frac {\mathbb {E} [(X-\mathbb {E} [X])^{2}]}{\gamma ^{2}}}}

a destra otteniamo la definizione di varianza V a r ( X ) = E [ ( X E [ X ] ) 2 ] , {\textstyle Var(X)=\mathbb {E} [(X-\mathbb {E} [X])^{2}],}

e sapendo che in generale x , μ , α {\displaystyle \forall x,\mu ,\alpha } vale quanto segue ( x μ ) 2 α 2 | x μ | | α | {\displaystyle (x-\mu )^{2}\geq \alpha ^{2}\iff |x-\mu |\geq |\alpha |}

otteniamo quanto si voleva dimostrare, cioè

P ( | X E [ X ] | γ ) V a r ( X ) γ 2 , {\displaystyle P(|X-\mathbb {E} [X]|\geq \gamma )\leq {\frac {Var(X)}{\gamma ^{2}}},}

che può anche essere riscritta ponendo il parametro t = γ V a r ( X ) {\displaystyle t={\frac {\gamma }{\sqrt {Var(X)}}}}

P ( | X E [ X ] | t V a r ( X ) ) 1 t 2 , {\displaystyle P(|X-\mathbb {E} [X]|\geq t{\sqrt {Var(X)}})\leq {\frac {1}{t^{2}}},}

possiamo inoltre semplificare la scrittura usando, anziché la varianza, lo strumento statistico della deviazione standard, definito proprio come sua radice.

P ( | X E [ X ] | t σ ) 1 t 2 . {\displaystyle P(|X-\mathbb {E} [X]|\geq t\sigma )\leq {\frac {1}{t^{2}}}.}

Legge debole dei grandi numeri

La disuguaglianza di Čebyšëv, viene inoltre utilizzata nella famosa legge dei grandi numeri, di cui qui verrà dimostrata il suo enunciato cosiddetto "debole". L'enunciato è il seguente:

Consideriamo una popolazione di N {\displaystyle N} elementi di variabili aleatorie indipendenti tutte di valore atteso μ {\displaystyle \mu } e varianza σ 2 {\displaystyle \sigma ^{2}} .

{ X n } n N ,   n N R {\displaystyle \{X_{n}\}_{n\in \mathbb {N} ,\ n\leq N}\subset \mathbb {R} }
E [ X n ] = μ ,   n {\displaystyle \mathbb {E} [X_{n}]=\mu ,\ \forall n}
V a r ( X n ) = σ 2 ,   n . {\displaystyle Var(X_{n})=\sigma ^{2},\ \forall n.}

E definendo lo stimatore del valor medio X ¯ N = 1 N n = 1 N X n {\displaystyle {\bar {X}}_{N}={\frac {1}{N}}\sum _{n=1}^{N}X_{n}} si ha

ϵ R + lim N P ( | X ¯ N μ | < ϵ ) = 1. {\displaystyle \forall \epsilon \in \mathbb {R} ^{+}\lim _{N\rightarrow \infty }P(|{\bar {X}}_{N}-\mu |<\epsilon )=1.}

Il che vuol dire che aumentando la grandezza della popolazione in nostro possesso, lo stimatore del valor medio va sempre di più a coincidere con il valore atteso.

Dimostrazione

Applichiamo la disuguaglianza di Čebyšëv allo stimatore del valor medio:

P ( | X ¯ N E [ X ¯ N ] | ϵ ) V a r ( X ¯ N ) ϵ 2 {\displaystyle P(|{\bar {X}}_{N}-\mathbb {E} [{\bar {X}}_{N}]|\geq \epsilon )\leq {\frac {Var({\bar {X}}_{N})}{\epsilon ^{2}}}}

per ogni ϵ R + . {\displaystyle \epsilon \in \mathbb {R} ^{+}.} Per le proprietà di linearità del valore atteso abbiamo che in generale la media aritmetica di variabili aleatorie di diverso valore atteso corrisponde a uno stimatore di valore atteso pari alla media aritmetica dei singoli valori attesi. Nel nostro caso tutte le X n {\displaystyle X_{n}} hanno lo stesso valore atteso μ {\displaystyle \mu } , pertanto

E [ X ¯ N ] = 1 N n = 1 N E [ X n ] = μ . {\displaystyle \mathbb {E} [{\bar {X}}_{N}]={\frac {1}{N}}\sum _{n=1}^{N}\mathbb {E} [X_{n}]=\mu .}

Poiché le X n {\displaystyle X_{n}} sono indipendenti tra di loro vale quanto segue a , b R , i , j N {\displaystyle \forall a,b\in \mathbb {R} ,\forall i,j\in \mathbb {N} } tale che i j N {\displaystyle i\leq j\leq N}

V a r ( a X i + b X j ) = a 2 V a r ( X i ) + b 2 V a r ( X j ) . {\displaystyle Var(aX_{i}+bX_{j})=a^{2}Var(X_{i})+b^{2}Var(X_{j}).}

Nel nostro caso quindi abbiamo che

V a r ( X ¯ N ) = 1 N 2 n = 1 N V a r ( X n ) = σ 2 N . {\displaystyle Var({\bar {X}}_{N})={\frac {1}{N^{2}}}\sum _{n=1}^{N}Var(X_{n})={\frac {\sigma ^{2}}{N}}.}

Quindi riscriviamo la nostra relazione alla luce di quanto detto

P ( | X ¯ N μ | ϵ ) σ 2 N ϵ 2 1 P ( | X ¯ N μ | ϵ ) 1 σ 2 N ϵ 2 . {\displaystyle P(|{\bar {X}}_{N}-\mu |\geq \epsilon )\leq {\frac {\sigma ^{2}}{N\epsilon ^{2}}}\rightarrow 1-P(|{\bar {X}}_{N}-\mu |\geq \epsilon )\geq 1-{\frac {\sigma ^{2}}{N\epsilon ^{2}}}.}

Il primo termine può essere riscritto mediante il complementare dell'evento di cui stiamo calcolando la probabilità

1 P ( | X ¯ N μ | ϵ ) = P ( | X ¯ N μ | < ϵ ) . {\displaystyle 1-P(|{\bar {X}}_{N}-\mu |\geq \epsilon )=P(|{\bar {X}}_{N}-\mu |<\epsilon ).}

Ma comunque la probabilità di qualunque evento è al più 1:

1 P ( | X ¯ N μ | < ϵ ) 1 σ 2 N ϵ 2 . {\displaystyle 1\geq P(|{\bar {X}}_{N}-\mu |<\epsilon )\geq 1-{\frac {\sigma ^{2}}{N\epsilon ^{2}}}.}

Pertanto se portiamo al limite tale espressione otteniamo quanto stavamo cercando per il teorema del confronto:

lim N P ( | X ¯ N μ | < ϵ ) = 1. {\displaystyle \lim _{N\rightarrow \infty }P(|{\bar {X}}_{N}-\mu |<\epsilon )=1.}

Il che vuol dire che è certo l'evento preso in considerazione, ovvero che definitivamente la distanza tra X ¯ N {\displaystyle {\bar {X}}_{N}} e μ {\displaystyle \mu } è maggiorata da ϵ {\displaystyle \epsilon } arbitrario positivo

ϵ > 0   N ¯   t . c . N > N ¯ {\displaystyle \forall \epsilon >0\ \exists {\bar {N}}\ t.c.\forall N>{\bar {N}}}
| X ¯ N μ | < ϵ . {\displaystyle |{\bar {X}}_{N}-\mu |<\epsilon .}

Il che significa in conclusione, per definizione di limite, che

lim N X ¯ N = μ . {\displaystyle \lim _{N\rightarrow \infty }{\bar {X}}_{N}=\mu .}

Voci correlate

Collegamenti esterni

  • (EN) Eric W. Weisstein, Disuguaglianza di Markov, su MathWorld, Wolfram Research. Modifica su Wikidata
  Portale Matematica
  Portale Statistica