Esaminiamo per primo il caso più diffuso in applicazioni reali quando il rumore sulle osservazioni è di tipo additivo gaussiano bianco.
Sia pertanto
Si può pensare che la funzione dei parametri non sia la stessa per tutti i campioni ma potrebbero essercene di differenti, osservando di fatto quantità differenti, funzione sempre dei medesimi parametri
.
In tal caso l'equazione (3.2) può venire generalizzata come
Si introduce il vettore definito come
(3.4) |
Per ottenere uno stimatore a massima verosimiglianza, la quantità da minimizzare è la negative log likelihood (sezione 2.8) della funzione (3.2).
Nel caso di rumore gaussiano la funzione di verosimiglianza si scrive infatti come
La regressione ai minimi quadrati è una tecnica di ottimizzazione standard per sistemi sovradimensionati che individua i parametri
di una funzione
che minimizzano un errore calcolato come somma del quadrato (Sum Of Squared Error) dei residui su un insieme di osservazioni
:
è una funzione che viene analizzata, al variare dei parametri
, per cercare il suo valor minimo
Un minimo globale è difficile, dal punto di vista prettamente computazionale, da individuare e normalmente si possono sfruttare tecniche per individuare solamente i minimi locali.
Sia pertanto
3.1 differenziabile, ovvero differenziabile.
La condizione necessaria che
sia un minimo è che, in quel punto dello spazio dei parametri, il gradiente di
si annulli, ovvero
Condizione sufficiente che un punto stazionario ( ) sia un minimo è che (l'hessiana) sia definita positiva. Chiaramente l'esistenza del minimo locale garantisce solo che esiste un intorno di tale che la funzione .
Tutta la discussione affrontata fin ora ha come ipotesi che il rumore sia additivo con varianza costante tra tutti i campioni (homoscedasticity).
Nel caso in cui il rumore di misura sia comunque gaussiano additivo a media nulla ma con varianza non costante, ogni singola osservazione è una variabile aleatoria indipendente a cui è associata la varianza .
Intuitivamente si capisce che la regressione ottima in questo caso dovrà pesare di più i campioni con varianza bassa mentre dovranno essere pesati meno i campioni con varianza elevata.
Per ottenere questo risultato si fa uso di una normalizzazione, simile a quella mostrata in sezione 2.4.1 e diretta conseguenza della likelihood di equazione (3.5), e pertanto non si deve più minimizzare la semplice somma dei residui al quadrato, ma piuttosto la somma pesata dei residui:
(3.9) |
Generalizzando ulteriormente questo concetto, quando sull'osservazione è presente del rumore gaussiano con matrice di covarianza nota
, la Weighted Sum of Squared Error (WSSE) si può scrivere infine come
(3.11) |
Qualunque Weighted Least Squares può essere ricondotto a un problema non pesato premoltiplicando i residui (e di conseguenza le derivate) per una matrice tale che , usando per esempio una decomposizione di Cholesky nel caso in cui tale matrice non sia diagonale.
Tutti questi stimatori, che tengono conto della varianza dell'osservazione, coincidono con il negative log likelihood per la variabile perturbata da rumore gaussiano di media zero e covarianza .