M-Estimator

L'utilizzo della regressione ai minimi quadrati (Least squares) dell'errore rispetto ad altre funzioni di peso è normalmente scelta per via della semplicità delle derivate che si ottengono.

Tuttavia questa tecnica tratta in maniera differente tra loro i punti vicini e pesa molto i punti lontani dal modello (solitamente outlier).

Per risolvere questo problema è necessario cambiare la metrica attraverso la quale vengono valutati gli errori: una metrica differente che potrebbe risolvere questo problema è la regressione al valore assoluto. Il calcolo tuttavia del minimo della funzione errore espresso come distanza in valore assoluto (Least absolute deviations regression) non è facile, in quanto la derivata non è continua e richiede l'utilizzo di tecniche iterative di ottimizzazione.

Peter Huber ha proposto nel 1964 una generalizzazione del concetto di minimizzazione alla massima verosomiglianza introducendo gli M-estimator. Alcuni esempi di funzioni di regressione sono mostrate in figura 3.1.

Figura 3.1: Alcuni esempi di funzioni peso per regressioni: la regressione ai minimi quadrati (metrica L2), la regressione lineare (L1), gli stimatori di Huber e la biquadratica di Tukey.
Image fig_m-estimator1 Image fig_m-estimator2 Image fig_m-estimator3 Image fig_m-estimator4

Un M-Estimator sostituisce la metrica basata sulla somma dei quadrati a una metrica basata su una funzione $ \rho$ (loss function) generica con un unico minimo in zero e con crescita sub-quadratica. Gli M-Estimator generalizzano la regressione ai minimi quadrati: ponendo $ \rho(\mathbf{r})=\Vert\mathbf{r}\Vert^2$ si ottiene la forma classica della regressione.

La stima dei parametri si ottiene attraverso la minimizzazione di una sommatoria di quantità pesate generiche:

$\displaystyle \min_\beta \sum \rho \left( \frac{\mathbf{r}_i}{\sigma_i} \right)$ (3.38)

la cui soluzione, in forma chiusa o iterativa, rispetto ai minimi quadrati è diversa a causa della differente derivata della funzione $ \rho$:

$\displaystyle \sum \frac{1}{\sigma_i} \rho' \left( \frac{\mathbf{r}_i}{\sigma_i} \right) \frac{\partial \mathbf{r}_i}{\partial \beta} = 0$ (3.39)

Paolo Medici 2012-05-02