Metodo dei minimi quadrati

Il metodo dei minimi quadrati (in inglese OLS: Ordinary Least Squares) è una tecnica di ottimizzazione (o regressione) che permette di trovare una funzione, rappresentata da una curva ottima (o curva di regressione), che si avvicini il più possibile ad un insieme di dati (tipicamente punti del piano). In particolare, la funzione trovata deve essere quella che minimizza la somma dei quadrati delle distanze tra i dati osservati e quelli della curva che rappresenta la funzione stessa. In questo caso, possiamo distinguere parabola dei minimi quadrati e retta dei minimi quadrati. Questo metodo converge solo nel suo caso limite a un'interpolazione, per cui di fatto si richiede che la curva ottima contenga tutti i punti dati.

L'utilizzo più frequente è la deduzione dell'andamento medio in base ai dati sperimentali per l'estrapolazione fuori dal campo di misurazione. Anche altri problemi di ottimizzazione, come la minimizzazione dell'energia o la massimizzazione dell'entropia, possono essere riformulati in una ricerca dei minimi quadrati.

Stimatori OLS

Gli stimatori OLS sono:[1]

  • pendenza = β 1 ^ = i = 1 n ( X i X ¯ ) ( Y i Y ¯ ) i = 1 n ( X i X ¯ ) 2 = s X Y s X 2 {\displaystyle {\hat {\beta _{1}}}={\frac {\sum _{i=1}^{n}(X_{i}-{\bar {X}})(Y_{i}-{\bar {Y}})}{\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}}}={\frac {s_{XY}}{s_{X}^{2}}}}
  • intercetta = β 0 ^ = Y ¯ β 1 ^ X ¯ {\displaystyle {\hat {\beta _{0}}}={\bar {Y}}-{\hat {\beta _{1}}}{\bar {X}}}

Assunzioni OLS

Voce da controllare
Questa voce o sezione sull'argomento statistica è ritenuta da controllare.
Motivo: Sono indicati gli assunti richiesti perché lo stimatore dei minimi quadrati abbia le caratteristiche che si richiedono in un approccio asintotico (indipendenza in media dell'errore, normalità asintotica), come in econometria, e infatti la fonte è un testo di econometria. Le assunzioni OLS per il caso generale sono altre (v. discussione)

Regressione lineare semplice

Le assunzioni OLS sono:[1]

Y i = β 0 + β 1 X i + u i {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i}+u_{i}} , con i = 1, …, n
  • l'errore statistico u i {\displaystyle u_{i}} ha media condizionata nulla data X i {\displaystyle X_{i}} , ovvero E ( u i | X i ) = 0 {\displaystyle E(u_{i}|X_{i})=0} ;
  • ( X i , Y i ) , i = 1 , , n {\displaystyle (X_{i},Y_{i}),i=1,\dots ,n} sono estratti indipendentemente e identicamente distribuiti (i.i.d.) dalla loro distribuzione congiunta;
  • ( X i , Y i ) {\displaystyle (X_{i},Y_{i})} hanno momenti quarti finiti non nulli.

Regressione lineare multipla

Le assunzioni OLS sono:[1]

Y i = β 0 + β 1 X 1 i + β 2 X 2 i + + β k X k i + u i {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\beta _{2}X_{2i}+\cdots +\beta _{k}X_{ki}+u_{i}} , con i = 1, …, n
  • l'errore statistico u i {\displaystyle u_{i}} ha media condizionata nulla date X 1 i , X 2 i , , X k i {\displaystyle X_{1i},X_{2i},\cdots ,X_{ki}} , ovvero E ( u i | X 1 i , X 2 i , , X k i ) = 0 {\displaystyle E(u_{i}|X_{1i},X_{2i},\cdots ,X_{ki})=0} ;
  • ( X 1 i , X 2 i , , X k i , Y i ) , i = 1 , , n {\displaystyle (X_{1i},X_{2i},\cdots ,X_{ki},Y_{i}),i=1,\dots ,n} sono estratti indipendentemente e identicamente distribuiti (i.i.d.) dalla loro distribuzione congiunta;
  • ( X 1 i , , X k i , u i ) {\displaystyle (X_{1i},\cdots ,X_{ki},u_{i})} hanno momenti quarti finiti non nulli;
  • non vi è collinearità perfetta.

Da notare che l'ipotesi di media condizionale dell'errore nulla implica che:

E ( u i ) = E ( E ( u i | X ) ) = E ( 0 ) = 0 {\displaystyle E(u_{i})=E(E(u_{i}|\mathbf {X} ))=E(0)=0} ,
  • l'errore non sia correlato con i regressori, cioè la covarianza tra errore e regressori sia nulla:
C o v ( u i , X ) = E ( ( u i E ( u i ) ) ( X E ( X ) ) ) = E ( u i X ) = E X ( E ( u i X ) | X ) = E X ( E ( u i | X ) X ) = E X ( 0 X ) = 0 {\displaystyle Cov(u_{i},\mathbf {X} )=E((u_{i}-E(u_{i}))(\mathbf {X} -E(\mathbf {X} )))=E(u_{i}\mathbf {X} )=E_{\mathbf {X} }(E(u_{i}\mathbf {X} )|\mathbf {X} )=E_{\mathbf {X} }(E(u_{i}|\mathbf {X} )\mathbf {X} )=E_{\mathbf {X} }(0\cdot \mathbf {X} )=0} .

Formulazione del problema

Siano ( x i , y i ) {\displaystyle (x_{i},y_{i})} con i = 1 , 2 , , n {\displaystyle i=1,2,\dots ,n} i punti che rappresentano i dati in ingresso. Si vuole trovare una funzione f {\displaystyle f} tale che approssimi la successione di punti dati. Questa può essere determinata minimizzando la distanza (euclidea) tra le due successioni y i {\displaystyle y_{i}} e f ( x i ) {\displaystyle f(x_{i})} , ovvero la quantità S :

S = i = 1 n ( y i f ( x i ) ) 2 , {\displaystyle S=\sum _{i=1}^{n}\left(y_{i}-f(x_{i})\right)^{2},}

da cui il nome "minimi quadrati".

Nei casi pratici in genere f(x) è parametrica: in questo modo il problema si riduce a determinare i parametri che minimizzano la distanza dei punti dalla curva. Naturalmente per ottenere un'unica curva ottimizzata e non un fascio, è necessario un numero di punti sperimentali maggiore del numero di parametri da cui dipende la curva (il problema in genere si dice sovradeterminato). In genere dai dati sperimentali ottenuti ci si aspetta una distribuzione regolata da relazioni determinate per via analitica; risulta utile quindi parametrizzare la curva teorica e determinare i parametri in modo da minimizzare S.

Esempi

  • y = b x + a {\displaystyle y=bx+a}

La funzione interpolante desiderata è una retta, i parametri sono due a e b: per essere determinati univocamente servono almeno due punti da interpolare.

In tal caso è possibile scrivere in modo esplicito i valori dei parametri a e b.

Si consideri di avere N coppie ( x i , y i ) {\displaystyle (x_{i},y_{i})} . Allora i coefficienti sono:

b = N ( x i y i ) x i y i N ( x i 2 ) ( x i ) 2 {\displaystyle b={\frac {N\sum (x_{i}y_{i})-\sum x_{i}\sum y_{i}}{N\sum (x_{i}^{2})-(\sum x_{i})^{2}}}}
a = y i ( x i 2 ) ( x i ) ( x i y i ) N ( x i 2 ) ( x i ) 2 {\displaystyle a={\frac {\sum y_{i}\sum (x_{i}^{2})-\sum (x_{i})\sum (x_{i}y_{i})}{N\sum (x_{i}^{2})-(\sum x_{i})^{2}}}}
  • f ( x ) = x a {\displaystyle f(x)=x^{a}}

La funzione interpolante desiderata è una potenza e possiede un solo parametro; diversamente dall'esempio precedente la funzione non è lineare rispetto ai parametri.

Soluzione del caso lineare

Lo stesso argomento in dettaglio: Regressione lineare.
Usare OLS lineare per centrare una linea attraverso un vasto numero di osservazioni solitamente dà risultati migliori che prendere appena due punti attraverso i quali è disegnata la linea

Sia f(x) una funzione lineare rispetto ai parametri

f ( x ) = p 1 f 1 ( x ) + p 2 f 2 ( x ) + + p k f k ( x ) {\displaystyle f(x)=p_{1}f_{1}(x)+p_{2}f_{2}(x)+\dots +p_{k}f_{k}(x)}

dove pi sono i k parametri, k n {\displaystyle k\ll n} e n è il numero di punti noti.

Si può riorganizzare la situazione attraverso il sistema lineare sovradimensionato

A p y {\displaystyle Ap\approx y}

dove:

A = [ f 1 ( x 1 ) f k ( x 1 ) f 1 ( x n ) f k ( x n ) ] , p = [ p 1 p k ] , y = [ y 1 y n ] . {\displaystyle A={\begin{bmatrix}f_{1}(x_{1})&\dots &f_{k}(x_{1})\\\vdots &&\vdots \\f_{1}(x_{n})&\dots &f_{k}(x_{n})\end{bmatrix}},p={\begin{bmatrix}p_{1}\\\vdots \\p_{k}\end{bmatrix}},y={\begin{bmatrix}y_{1}\\\vdots \\y_{n}\end{bmatrix}}.}

Da cui: p 1 f 1 ( x i ) + p 2 f 2 ( x i ) + + p k f k ( x i ) y i {\displaystyle p_{1}f_{1}(x_{i})+p_{2}f_{2}(x_{i})+\dots +p_{k}f_{k}(x_{i})\approx y_{i}}

Il problema di minimizzare S si riconduce dunque a minimizzare la norma del residuo

r = A p y , r 2 = A p y 2 = ( [ A p ] 1 y 1 ) 2 + + ( [ A p ] n y n ) 2 = i = 1 n ( f ( x i ) y i ) 2 = S {\displaystyle \|r\|=\|Ap-y\|,\|r\|^{2}=\|Ap-y\|^{2}=([Ap]_{1}-y_{1})^{2}+\dots +([Ap]_{n}-y_{n})^{2}=\sum _{i=1}^{n}(f(x_{i})-y_{i})^{2}=S}

dove con [ A p ] i {\displaystyle [Ap]_{i}} si intende l'i-esima componente del vettore prodotto fra A e p.

Possiamo minimizzare r {\displaystyle \|r\|} derivando r 2 {\displaystyle \|r\|^{2}} rispetto a ciascun pm e ponendo le derivate pari a 0:

d r 2 d p m = i = 1 n 2 ( j = 1 k a i j p j y i ) a i m = 0 {\displaystyle {\frac {d\|r\|^{2}}{dp_{m}}}=\sum _{i=1}^{n}2\left(\sum _{j=1}^{k}a_{ij}p_{j}-y_{i}\right)a_{im}=0}

queste equazioni sono equivalenti al sistema:

( A p y ) T A = 0 {\displaystyle (Ap-y)^{T}A=0}

Quindi il vettore p che minimizza S è la soluzione dell'equazione:

A T A p = A T y {\displaystyle A^{T}Ap=A^{T}y}

Quest'ultima equazione è detta equazione normale. Se il rango di A è completo allora A T A {\displaystyle A^{T}A} è invertibile e dunque:

p = ( A T A ) 1 A T y {\displaystyle p=(A^{T}A)^{-1}A^{T}y}

La matrice ( A T A ) 1 A T {\displaystyle (A^{T}A)^{-1}A^{T}} è detta pseudo-inversa.

Caso non lineare

Lo stesso argomento in dettaglio: Regressione nonlineare.

In molti casi la funzione y = f ( x ; a ) {\displaystyle y=f(x;{\vec {a}})} non è lineare, in questi casi non si può indicare un modo certo per ottenere i parametri. Nel tipico caso in cui la dimensione dello spazio dei parametri sia maggiore di 1, il problema diventa fortemente non lineare conviene ricorrere all'uso di programmi di analisi numerica specifici che minimizzi la variabile χ 2 {\displaystyle \chi ^{2}} .

Una delle librerie più famose per questo compito è MINUIT[2], inizialmente sviluppata al CERN in Fortran ed ora integrata nel più recente framework di analisi dati ROOT[3]. Si segnalano per questo compito anche altre librerie come le Gnu Scientific Library[4].

Minimi quadrati a due stadi - 2SLS o TSLS

Questo metodo si utilizza quando quello dei minimi quadrati ordinari fallisce, perché la stima ottenuta è correlata all'errore. In questo caso si opera una regressione della variabile che si vuole stimare su una variabile strumentale che sia correlata alla variabile dipendente stessa, ma non al termine di errore. Ottenuta questa stima, la si utilizza per girare una nuova regressione che non dovrebbe dare problemi. Ovviamente il problema più grosso è trovare una variabile strumentale con le caratteristiche adeguate.

È tipicamente utilizzato con le variabili strumentali.

Assunzioni TSLS

Le assunzioni OLS sono:[1]

Note

  1. ^ a b c d James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 100, ISBN 978-88-7192-267-6.
  2. ^ MINUIT Archiviato il 26 maggio 2008 in Internet Archive.
  3. ^ ROOT
  4. ^ Gnu Scientific Library

Voci correlate

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su metodo dei minimi quadrati

Collegamenti esterni

  • http://www.physics.csbsju.edu/stats/least_squares.html
  • levmar, in C/C++, con interfacce di MATLAB, Perl e Python. Licenza: GPL
  • lmfit Archiviato il 26 novembre 2013 in Internet Archive. implementazione del algoritmo di Levenberg e Marquardt per uso in C e C++
  • Zunzun.com - Online curve and surface fitting
  • http://www.orbitals.com/self/least/least.htm


Controllo di autoritàThesaurus BNCF 38670 · NDL (ENJA) 00570033
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica