Regressione lineare ai minimi quadrati

Quando $ f$ è una funzione lineare rispetto ai parametri $ \boldsymbol\beta$ si parla di regressione lineare ai minimi quadrati (Linear Least Squares o Ordinary Least Squares OLS). Tale funzione può essere rappresentata nella forma di sistema lineare

$\displaystyle y_i = \mathbf{x}_i \boldsymbol\beta + \varepsilon_i$ (3.5)

dove $ \boldsymbol\beta$ sono i parametri sconosciuti da ricavare e $ \varepsilon_i$ è rumore additivo gaussiano bianco a media nulla.

Tutti i singoli vincoli possono essere raccolti in forma matriciale

$\displaystyle \mathbf{y} = \mathbf{X} \boldsymbol\beta + \boldsymbol\varepsilon$ (3.6)

Il vettore $ \mathbf{y}$ è il vettore delle risposte (variabili dipendenti), la matrice $ \mathbf{X}=(x_1,\ldots,x_n)^{\top}$ che raccoglie le variabili indipendenti (explanatory variables) viene chiamata design matrix, e infine $ \boldsymbol\varepsilon$ è il vettore del rumore additivo a media nulla $ E[\boldsymbol\varepsilon]=0$ e varianza $ \boldsymbol\Sigma$. Il vettore $ \boldsymbol\beta$ è chiamato Linear Projection Coefficient o Linear Predictor.

Il teorema di Gauss-Markov dimostra che uno stimatore ai minimi quadrati è la miglior scelta tra tutti gli stimatori BLUE a minima varianza quando la varianza sull'osservazione è costante (homoskedastic).

La miglior stima ai minimi quadrati $ \hat{\boldsymbol\beta}$ che minimizza la somma dei residui è la soluzione del problema lineare

$\displaystyle \hat{\boldsymbol\beta} = \argmin_\mathbf{b} \sum \Vert \mathbf{y}...
...bf{b}\Vert^2 = (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}$ (3.7)

Lo stesso risultato era già pervenuto nella sezione 1.1 riguardante la pseudoinversa di una matrice: una decomposizione SVD della matrice $ \mathbf{X}$ ritorna la soluzione migliore dal punto di vista della precisione di calcolo.

Nel caso di rumore a varianza non costante tra i campioni (heteroskedastic) e in generale non indipendente tra loro, la miglior stima BLUE nel caso lineare deve tenere conto della covarianza del rumore $ \boldsymbol\Sigma$

$\displaystyle \hat{\boldsymbol\beta} = (\mathbf{X}^{\top} \Sigma^{-1} \mathbf{X})^{-1} \mathbf{X}^{\top}\boldsymbol\Sigma^{-1}\mathbf{y}$ (3.8)

Tale estimatore è chiamato Generalized Least Squares(GLS).

La matrice $ \mathbf{P}$, definita come

$\displaystyle \mathbf{P} = \mathbf{X} (\mathbf{X}^{\top} \mathbf{X} )^{-1} \mathbf{X}^{\top}$ (3.9)

è una matrice di proiezione (projection matrix) che trasforma le uscite (response vector) $ \mathbf{y}$ nella loro stima $ \hat{\mathbf{y}}$ senza rumore:

$\displaystyle \mathbf{P}\mathbf{y}_i = \mathbf{x}_i \hat{\boldsymbol\beta} = \hat{\mathbf{y}}_i$ (3.10)

per questa proprietà $ \mathbf{P}$ è chiamata hat matrix.

Paolo Medici 2012-02-08