Funzione di Huber

La funzione di Huber è una funzione usata in analisi della regressione, che ha la proprietà di essere meno sensibile agli outlier rispetto alla somma dei quadrati residui. Introdotta da Peter Jost Huber nel 1964, è comunemente usata in metodi di regressione quali ricerca di stimatori M e modelli additivi.[1]

Definizione

Funzione di Huber (verde, δ = 1 {\displaystyle \delta =1} ) e somma dei quadrati residui (blu)

La funzione di Huber è quadratica per piccoli valori di x {\displaystyle x} , e lineare per valori più grandi. È definita a tratti come[2][3]

L δ ( x ) = { 1 2 x 2 per  | x | δ , δ ( | x | 1 2 δ ) , altrimenti. {\displaystyle L_{\delta }(x)={\begin{cases}{\frac {1}{2}}{x^{2}}&{\text{per }}|x|\leq \delta ,\\\delta (|x|-{\frac {1}{2}}\delta ),&{\text{altrimenti.}}\end{cases}}}

ed è continua e differenziabile nei punti di congiunzione dove | x | = δ {\displaystyle |x|=\delta } .

Esistono diverse approssimazioni lisce della funzione di Huber.[4] Una variante comune, nota come pseudo-funzione di Huber, è definita come [5][6]

L δ ( x ) = δ 2 ( 1 + ( x / δ ) 2 1 ) . {\displaystyle L_{\delta }(x)=\delta ^{2}\left({\sqrt {1+(x/\delta )^{2}}}-1\right).}

e approssima x 2 2 {\displaystyle {\frac {x^{2}}{2}}} per valori piccoli di x {\displaystyle x} , e una retta con coefficiente angolare δ {\displaystyle \delta } per valori grandi di x {\displaystyle x} .

In problemi di classificazione statistica è usata una variante nota come funzione di Huber modificata, definita come

L ( y , f ( x ) ) = { max ( 0 , 1 y f ( x ) ) 2 per y f ( x ) 1 , 4 y f ( x ) altrimenti. {\displaystyle L(y,f(x))={\begin{cases}\max(0,1-y\,f(x))^{2}&{\textrm {per}}\,\,y\,f(x)\geq -1,\\-4y\,f(x)&{\textrm {altrimenti.}}\end{cases}}}

dove f ( x ) {\displaystyle f(x)} è la predizione del classificatore (a valori reali) e y { + 1 , 1 } {\displaystyle y\in \{+1,-1\}} è il valore binario della categoria di x {\displaystyle x} .[7]

Note

  1. ^ J. H. Friedman, Greedy Function Approximation: A Gradient Boosting Machine, in Annals of Statistics, vol. 26, n. 5, 2001, pp. 1189–1232, DOI:10.1214/aos/1013203451, JSTOR 2699986.
  2. ^ Peter J. Huber, Robust Estimation of a Location Parameter, in Annals of Statistics, vol. 53, n. 1, 1964, pp. 73–101, DOI:10.1214/aoms/1177703732, JSTOR 2238020.
  3. ^ Trevor Hastie, Robert Tibshirani e Jerome Friedman, The Elements of Statistical Learning, 2009, p. 349 (archiviato dall'url originale il 26 gennaio 2015). Rispetto a Hastie et al., la funzione perdita è scalata di un fattore pari a ½, per consistenza con la definizione precedente.
  4. ^ K. Lange, Convergence of Image Reconstruction Algorithms with Gibbs Smoothing, in IEEE Trans. Med. Imaging, vol. 9, n. 4, 1990, pp. 439–446, DOI:10.1109/42.61759, PMID 18222791.
  5. ^ P. Charbonnier, L. Blanc-Feraud, G. Aubert e M. Barlaud, Deterministic edge-preserving regularization in computed imaging, in IEEE Trans. Image Processing, vol. 6, n. 2, 1997, pp. 298–311, DOI:10.1109/83.551699.
  6. ^ R. Hartley e A. Zisserman, Multiple View Geometry in Computer Vision, 2ª ed., Cambridge University Press, 2003, p. 619, ISBN 978-0-521-54051-3.
  7. ^ Tong Zhang, Solving large scale linear prediction problems using stochastic gradient descent algorithms, ICML, 2004.
  Portale Statistica: accedi alle voci di Wikipedia che trattano di Statistica