Una scrittura della funzione costo
corretta nel caso di errore su entrambi gli assi è la Orthogonal least-squares line fit.
L'errore può essere espresso usando la distanza tra il punto e la retta in esame (equazione 1.18).
Tale distanza, detta anche Perpendicular Regression o Total least squares (si veda sezione 2.8), ha senso quando entrambe le coordinate sono affette da errore o sono variabili aleatorie.
La funzione errore
da minimizzare è la distanza tra il punto e la retta:
È da notare che nel caso di distanza perpendicolare esiste come soluzione sia un minimo che un massimo e pertanto esisteranno due valori di rette (ortogonali tra loro) entrambe soluzioni del sistema.
Agendo sulle derivate, si può subito dire da
che la retta regressione passa per il centroide
della distribuzione, ovvero che
La misura dell'errore, partendo da 3.24, sostituendo 3.25 e svolgendo la sommatoria, si può scrivere come:
ovvero, facendo sostituzioni adeguate
,
e
:
È da notare infine che il medesimo risultato si ottiene in maniera molto più semplice applicando la decomposizione SVD ai punti. Nel caso di regressione lineare la decomposizione SVD minimizza sia l'errore algebrico che geometrico (l'errore algebrico e geometrico coincidono quando tutti i termini affetti da rumore sono nel termine noto).
Paolo Medici 2012-02-08