Regressione ai minimi quadrati

La regressione ai minimi quadrati è una tecnica di ottimizzazione standard per sistemi sovradimensionati che individua i parametri $ \boldsymbol\beta=(\beta_1, \ldots, \beta_m)$ di una funzione $ f(\mathbf{x},\boldsymbol\beta)$ che minimizzano un errore $ S$ calcolato come somma del quadrato (Sum Of Squared Error) dei residui $ r_i$ su un set di $ n$ osservazioni:

$\displaystyle S(\boldsymbol\beta) = SSE(\boldsymbol\beta) = \sum_{i=1}^{n} \Ver...
...um_{i=1}^{n} { \Vert \mathbf{y}_i - f(\mathbf{x}_i, \boldsymbol\beta) \Vert^2 }$ (3.1)

$ S(\boldsymbol\beta)$ è definito come residual sum of squares o alternativamente come expected squared error. Una lettura completa sull'argomento si può trovare per esempio in [2].

La condizione di minimo si individua nel punto dove il gradiente si annulla:

$\displaystyle \frac{\partial S(\boldsymbol\beta)}{\partial k_i} = - 2 \sum \mathbf{r}_i \frac{\partial f(\mathbf{x}_i, \boldsymbol\beta)}{\partial k_i} = 0$ (3.2)

Il minimo trovato in questo modo nel caso di rumore sull'osservazione a valor medio nullo e varianza costante, che minimizza la funzione costo definita come in equazione 3.1, di fatto è il miglior stimatore lineare che normalizza la varianza (Best Linear Unbiased Estimator BLUE).

Nel caso in cui il rumore di misura sia gaussiano con varianza non costante ma comunque conosciuta $ \sigma_i$, la funzione di massima verosomiglianza da minimizzare per creare uno stimatore BLUE diventa

$\displaystyle \chi^{2} = \sum^{n}_{i=1} \frac{ \Vert \mathbf{y}_i - \hat{\mathbf{y}}_i \Vert^{2} }{ \sigma_i}$ (3.3)

che degenera nuovamente nel caso dei minimi quadrati quando la varianza è costante. La condizione di minimo, equazione 3.2, si modifica di conseguenza.

Generalizzando ulteriormente quando sull'osservazione è presente del rumore gaussiano con matrice di covarianza nota $ \boldsymbol\Sigma$, la Weighed Sum of Squared Error (SSE) si può scrivere infine come

$\displaystyle \chi^{2} = \sum^{n}_{i=1} \mathbf{r}^{\top}_i \boldsymbol\Sigma^{-1}_i \mathbf{r}_i$ (3.4)

dove $ \mathbf{r}_i = \mathbf{y}_i - \hat{\mathbf{y}}_i$. Tale stimatore coincide con il negative log likelihood per la variabile $ \mathbf{y}_i$ perturbata da rumore gaussiano di media zero e covarianza $ \boldsymbol\Sigma_i$. Qualunque Weightes Least Squares può essere ricondotto a un problema non pesato $ \boldsymbol\Sigma_i = I$ premoltiplicando gli scarti $ r_i$ per una matrice $ L^{\top}_i$ tale che $ \boldsymbol\Sigma^{-1}_i = L_i L_i^{\top}$ (usando per esempio una decomposizione di Cholesky nel caso in cui tale matrice non sia diagonale). Tale formulazione della funzione di costo equivale a quella di equazione 3.1 usando invece della distanza euclidea, la distanza di Mahalanobis (sezione 2.5).



Subsections
Paolo Medici 2012-02-08