![]() |
In molti problemi di regressione di dati è necessario essere in possesso di una qualche metrica per capire quanto un è distante dal modello vero e proprio e per fare questo sarebbe utile avere una stima
dell'osservazione senza la componente del rumore, ovvero un dato che appartiene al modello esattamente. Entrambe queste quantità normalmente non sono direttamente ottenibili se non introducendo variabili sussidiarie incognite.
È tuttavia possibile ottenere una stima di questi valori, linearizzando la funzione del modello nell'intorno dell'osservazione.
Sia una osservazione affetta da rumore e sia
una varietà multidimensionale manifold rappresentante un particolare modello a cui l'osservazione deve appartenere, ovvero
.
Il residuo è una misura algebrica della vicinanza tra il punto e il modello e non fornisce nessuna informazione utile in termini assoluti: se la funzione viene sostituita da un suo multiplo (diverso da zero) rappresenterà ovviamente lo stesso luogo dei punti ma il risultato della funzione cambierà di conseguenza.
La metrica corretta sotto il punto di vista dello stimatore alla massima verosimiglianza in caso di rumore additivo gaussiano bianco sulle osservazioni è la distanza geometrica tra il punto
e il punto
appartenente al modello ovvero stimare
.
Esaminiamo pertanto il problema di calcolare una distanza approssimata tra il punto
rispetto a una varietà geometrica
dove
funzione derivabile in un intorno di
.
Il punto
che giace sulla varietà più vicino al punto
è per definizione quel punto che minimizza l'errore geometrico
![]() |
(3.52) |
La differenza tra minimizzare una quantità algebrica in maniera lineare e una quantità geometrica in maniera non-lineare ha spinto la ricerca di un eventuale compromesso.
Il metodo di Sampson, sviluppato inizialmente per varietà come le coniche, richiede un ipotesi che può essere applicata invece a diversi problemi: le derivate della funzione costo nell'intorno del minimo
devono essere pressoché lineari e dunque approssimabili attraverso l'espansione in serie.
La varietà
può essere approssimata con Taylor in modo tale che
![]() |
(3.53) |
Questa è l'equazione di un iperpiano in e la distanza tra il punto
con il piano
è la distanza di Sampson o l'approximate maximum likelihood
(AML). L'errore di Sampson rappresenta la distanza geometrica tra il punto e la versione approssimata della funzione (geometric distance to first order approximation function).
Il problema a questo punto diventa quello di trovare il punto più vicino a
, ovvero minimizzare
, soddisfacendo il vincolo lineare
Essendo un caso di minimizzazione con vincoli si risolve attraverso l'uso dei moltiplicatori di Lagrange, da cui si ottiene il risultato notevole
![]() |
(3.55) |
Il valore
rappresenta una stima della distanza del punto
rispetto alla varietà e può essere usato sia per capire se il punto appartiene o meno alla varietà (per esempio all'interno di algoritmi come RANSAC per discernere gli outlier) che
potenzialmente come funzione costo alternativa alla norma euclidea.
è l'errore di Sampson e la sua norma, data da
![]() |
(3.56) |
Nel caso notevole , la distanza di Sampson si riduce a
![]() |
(3.57) |
Applicazioni pratiche dell'uso dell'errore di Sampson sono per esempio la distanza tra un punto e la conica (vedi sezione 3.6.7), distanza di una coppia di punti da una omografia o la distanza di una coppia di punti omologhi rispetto alla matrice Fondamentale (sezione 9.4.2).
La distanza di Sampson può venire generizzata nel caso di molteplici vincoli usando la distanza di Mahalanobis, ovvero minimizzando
(3.58) |
(3.59) |
Paolo medici