PCA

La Principal Component Analysis (Karhunen-Loeve) è una tecnica che permette di ordinare in una distribuzione vettoriale dei dati in modo da massimizzarne la varianza e, attraverso questa informazione, ridurre le dimensioni del problema. Un esempio pratico è l'equazione di un iperpiano in $ n$ dimensioni: esiste una base dello spazio che trasforma l'equazione del piano riducendola a $ n-1$ dimensioni.

Siano pertanto $ \mathbf{x} \in \mathbb{R}^{n}$ vettori rappresentanti i risultati di un qualche esperimento.

Se esiste una base ortonormale $ \mathbf{V}$ tale che la matrice di covarianza di $ \boldsymbol\Sigma_X$ espressa con questa base sia diagonale, allora gli assi di questa nuova base si chiamano componenti principali di $ \boldsymbol\Sigma$ (o della distribuzione di $ X$). Quando si ottiene una matrice di covarianza dove tutti gli elementi sono 0 tranne che sulla diagonale, significa che sotto questa nuova base dello spazio gli eventi sono tra loro scorrelati. Si può dimostrare che gli elementi della diagonale sono gli autovalori di $ \Sigma_X$ e per questa ragione le varianze della proiezione del vettore $ \mathbf{x}$ sulle componenti principali sono gli autovalori stessi.

Sia $ \mathbf{A}$ la matrice che raccoglie tutti i risultati degli esperimenti $ \mathbf{x}$. Ogni riga corrisponde a un diverso risultato $ \mathbf{x}$ e la distribuzione di questi esperimenti deve avere media nulla (che almeno la media empirica sia nulla).

Attraverso la SVD è possibile decomporre la matrice degli eventi $ \mathbf{A}$ in modo che

$\displaystyle \mathbf{A} = \mathbf{U}\mathbf{S}\mathbf{V}^{\top}
$

È possibile in questo modo estrarre da $ \mathbf{A}$ i suoi valori singolari, ordinati dal maggiore al minore. Gli autovalori maggiori sono associati ai vettori direzione di massima correlazione. Selezionando il numero di autovettori con autovalori abbastanza grandi è possibile creare una base dello spazio $ \mathbf{\tilde{V}}$ tale che $ \mathbf{y} \in \mathbb{R}^{m}$ ottenuto come proiezione

$\displaystyle \mathbf{y} = \mathbf{\tilde{V}}\mathbf{x}
$

rappresenti uno spazio di dimensioni ridotte ma che comunque contenga la maggior parte dell'informazione del sistema.

Se viene cambiata l'unita di misura (si veda 2.5.1) in modo tale che tutte le componenti principali siano uguali (le varianze siano uguali) la distribuzione viene detta sferizzata.

Paolo Medici 2012-05-02