La distanza di Mahalanobis

Un problema molto diffuso è quello di capire quanto un elemento $\mathbf {x}$ possa appartenere o meno a una distribuzione di probabilità, permettendo di fornire una stima approssimativa se tale elemento sia un inlier, ovvero appartenga alla distribuzione, o un outlier, ovvero esserne esterno.

La distanza di Mahalanobis (Mah36) permette di ottenere la misura di una osservazione normalizzata rispetto alla varianza della stessa e per questo motivo viene anche indicata come “distanza generalizzata”.

Definizione 8   La distanza di Mahalanobis di un vettore $\mathbf {x}$ rispetto a una distribuzione di valor medio $\mathbf{\mu}$ e matrice di covarianza $\mathbf{\Sigma}$ è definita come
\begin{displaymath}
d(\mathbf{x}) = \sqrt { (\mathbf{x} - \mathbf{\mu})^{\top} \mathbf{\Sigma} ^{-1} (\mathbf{x} - \mathbf{\mu}) }
\end{displaymath} (2.21)

distanza generalizzata del punto rispetto alla media.

Tale distanza può venir estesa (generalized squared interpoint distance) al caso di due vettori $\mathbf {x}$ e $\mathbf{y}$ realizzazioni della medesima variabile aleatoria con distribuzione di covarianza $\mathbf{\Sigma}$:

\begin{displaymath}
d(\mathbf{x}, \mathbf{y}) = \sqrt { (\mathbf{x} - \mathbf{y})^{\top} \mathbf{\Sigma} ^{-1} (\mathbf{x} - \mathbf{y}) }
\end{displaymath} (2.22)

Nel caso particolare di matrice covarianza diagonale, si riottiene la distanza euclidea normalizzata, mentre quando la matrice di covarianza ı¿12 esattamente la matrice identità (ovvero le componenti della distribuzione fossero di fatto incorrelate tra loro) la formulazione sopra si ricondurrebbe alla classica distanza euclidea.

La distanza di Mahalanobis permette di misurare distanze su campioni di cui non si conoscono le unità di misura, assegnando di fatto un fattore di scala automatico ai dati.



Subsections
Paolo medici
2024-11-07