|
In molti problemi di regressione di dati è necessario essere in possesso di una qualche metrica per capire se un punto possa appartenere o meno al modello. Allo stesso modo può tornare utile conoscere una stima dell'osservazione senza la componente del rumore.
Sia pertanto una osservazione affetta da rumore e sia una varietà multidimensionale rappresentante un particolare modello.
Il residuo è una misura algebrica della vicinanza tra il punto e il modello e non fornisce nessuna informazione utile in termini assoluti: qualsiasi multiplo diverso da zero della funzione rappresenterà lo stessa varietà ma la distanza cambierà di conseguenza. La metrica corretta sotto il punto di vista dello stimatore alla massima verosimiglianza in caso di rumore additivo gaussiano bianco è la distanza geometrica tra il punto e il punto appartenente al modello.
Esaminiamo pertanto il problema di calcolare una distanza approssimata tra il punto rispetto a una varietà geometrica dove funzione derivabile in un intorno di .
Il punto
che giace sulla varietà più vicino al punto è per definizione quel punto che minimizza l'errore geometrico
(3.52) |
La differenza tra minimizzare una quantità algebrica in maniera lineare e una quantità geometrica in maniera non-lineare ha spinto la ricerca di un eventuale compromesso.
Il metodo di Sampson, sviluppato inizialmente per varietà come le coniche, richiede un'ipotesi che può essere applicata a diversi problemi: le derivate della funzione costo nell'intorno del minimo
devono essere pressoché lineari e dunque approssimabili attraverso l'espansione in serie.
La varietà
può essere approssimata con Taylor in modo tale che
(3.53) |
Questa è l'equazione di un iperpiano in e la distanza tra il punto con il piano è la distanza di Sampson o l'approximate maximum likelihood (AML). L'errore di Sampson rappresenta la distanza geometrica tra il punto e la versione approssimata della funzione (geometric distance to first order approximation function).
Il problema a questo punto diventa quello di trovare il punto più vicino a , ovvero minimizzare
, soddisfacendo il vincolo lineare
Essendo un caso di minimizzazione con vincoli si risolve attraverso l'uso dei moltiplicatori di Lagrange, da cui si ottiene il risultato notevole
(3.55) |
Il valore
rappresenta una stima della distanza del punto rispetto alla varietà e può essere usato sia per capire se il punto appartiene o meno alla varietà (per esempio all'interno di algoritmi come RANSAC per discernere gli outlier) che
potenzialmente come funzione costo alternativa alla norma euclidea.
è l'errore di Sampson e la sua norma, data da
(3.56) |
Nel caso notevole , ampiamente diffuso, la distanza di Sampson si riduce a
(3.57) |
Applicazioni pratiche dell'uso dell'errore di Sampson sono per esempio la distanza tra un punto e la conica (vedi sezione 3.5.7), distanza di una coppia di punti da una omografia o la distanza di una coppia di punti omologhi rispetto alla matrice Fondamentale (sezione 9.4.2).
Paolo medici