Il Maximum Likelihood estimator

Da un punto di vista statistico il vettore dei dati $\mathbf{x} = \left\{ x_1 \ldots x_n \right\}$ sono realizzazioni di una variabile aleatoria di una popolazione sconosciuta. Il compito dell'analisi dei dati è quella di individuare la popolazione che più probabilmente ha generato quei campioni. In statistica, ogni popolazione è identificata da una corrispondente distribuzione di probabilità e associata a ogni distribuzione di probabilità c'è una parametrizzazione unica $\boldsymbol\vartheta$ : variando questi parametri deve essere generata una differente distribuzione di probabilità.

Sia $f( \mathbf{x} \vert \boldsymbol\vartheta)$ la funzione di densità di probabilità (PDF) che indica la probabilità di osservare $\mathbf {x}$ data una parametrizzazione $\boldsymbol\vartheta$ . Se le osservazioni singole $x_i$ sono statisticamente indipendenti una dall'altra la PDF di $\mathbf {x}$ può essere espressa come prodotto delle singole PDF:

$\begin{displaymath} f( \mathbf{x} = \left\{ x_1 \ldots x_n \right\} \vert \bold... ...oldsymbol\vartheta) \ldots f_n(x_n \vert \boldsymbol\vartheta) \end{displaymath}$

(2.53)

Data una parametrizzazione $\boldsymbol\vartheta$ è possibile definire una specifica PDF che mostra la probabilità di comparire di alcuni dati rispetto ad altri. Nel caso reale abbiamo esattamente il problema reciproco: i dati sono stati osservati e c'è da individuare quale $\boldsymbol\vartheta$ ha generato quella specifica PDF.

Definizione 9 Per risolvere il problema inverso, definiamo la funzione $\mathcal{L}: \boldsymbol\vartheta \mapsto [0, \infty)$ , funzione di verosimiglianza (likelihood), definita come

$\begin{displaymath} \mathcal{L}(\boldsymbol\vartheta \vert \mathbf{x} ) = f (\m... ...rtheta) = \prod_{i=1}^{n} f_i (x_i \vert \boldsymbol\vartheta) \end{displaymath}$

(2.54)

nel caso di osservazioni statisticamente indipendenti.

$\mathcal{L}( \boldsymbol\vartheta \vert \mathbf{x} )$ indica la verosimiglianza del parametro $\boldsymbol\vartheta$ a seguito della osservazione degli eventi $\mathbf {x}$ .

Il principio dello stimatore a massima verosimiglianza (MLE) $\hat{\boldsymbol\vartheta}_{MLE}$ , sviluppato originariamente da R.A. Fisher negli anni '20 del novecento, sceglie come migliore parametrizzazione quella che fa adattare meglio la distribuzione di probabilità generata con i dati osservati.

Nel caso di distribuzione di probabilità gaussiana è utile una ulteriore definizione.

Definizione 10 Sia $\ell$ la funzione di verosimiglianza logaritmica (log likelihood) definita come

$\begin{displaymath} \ell = \log \mathcal{L}(\boldsymbol\vartheta \vert x_1 \ldo... ..._n) = \sum_{i=1}^{n} \log f_i (x_i \vert \boldsymbol\vartheta) \end{displaymath}$

(2.55)

avendo sfruttato le proprietà del logaritmo.

La miglior stima dei parametri del modello è quella che massimizza la verosimiglianza, ovvero la verosimiglianza logaritmica

$\begin{displaymath} \hat{\boldsymbol\vartheta}_{ML} = \argmax_{\boldsymbol\vart... ...heta} \sum_{i=1}^{n} \log f_i (x_i \vert \boldsymbol\vartheta) \end{displaymath}$

(2.56)

siccome il logaritmo è una funzione monotona crescente.

È possibile trovare in letteratura, come stimatore ottimo, invece del massimo della funzione di verosimiglianza, il minimo dell'opposta

$\begin{displaymath} \hat{\boldsymbol\vartheta}_{ML} = \argmin_{\boldsymbol\vart... ...um_{i=1}^{n} \log f_i (x_i \vert \boldsymbol\vartheta) \right) \end{displaymath}$

(2.57)

ovvero il minimo del negative log likelihood.

Questa formulazione risulta molto utile quando la distribuzione del rumore è gaussiana. Siano $(x_i,y_i)$ le realizzazioni della variabile aleatoria. Nel caso infatti di una generica funzione $y_i = g(x_i ; \boldsymbol\vartheta) + \epsilon$ con rumore a distribuzione normale, tempo costante e media nulla, la Likelihood è

$\begin{displaymath} \mathcal{L}(\boldsymbol\vartheta \vert \mathbf{x} ) = \prod... ...- g(x_i; \boldsymbol\vartheta ) \right)^2}{2 \sigma^2} \right) \end{displaymath}$

(2.58)

e pertanto la MLE stimata attraverso il minimo della negative log likelihood si scrive come

$\begin{displaymath} \hat{\boldsymbol\vartheta}_{ML} = \argmin_{\boldsymbol\vart... ...=1}^{n} \left( y_i - g(x_i ; \boldsymbol\vartheta ) \right)^2 \end{displaymath}$

(2.59)

ovvero la tradizionale soluzione ai minimi quadrati è lo stimatore alla massima verosimiglianza in caso di rumore additivo gaussiano a media nulla.

Ora, le $m$ derivate parziali della log-verosimiglianza formano un vettore $m \times 1$

$\begin{displaymath} \mathbf{u}(\boldsymbol\beta) = \dfrac{\partial \ell(\boldsy... ...dots \\ \dfrac{\partial \ell} {\partial \beta_m} \end{bmatrix}\end{displaymath}$

(2.60)

Il vettore $\mathbf{u}(\boldsymbol\beta)$ è chiamato score vector (o Fisher's score function) della log-verosimiglianza. Se la log-verosimiglianza è concava, lo stimatore alla massima verosimiglianza individua pertanto il punto per il quale

$\begin{displaymath} \mathbf{u}( \hat{ \boldsymbol\beta } ) = \mathbf{0} \end{displaymath}$

(2.61)

I momenti di $\mathbf{u}(\boldsymbol\beta)$ soddisfano pertanto importanti proprietà: come abbiamo visto poco sopra la media di $\mathbf{u}(\boldsymbol\beta)$ calcolata nel punto di massima verosimiglianza è uguale a zero e la matrice di varianza-covarianza è

$\begin{displaymath} \var \left( \mathbf{u}(\boldsymbol\beta) \right) = \E \left[... ...ta_j \partial \beta_k} \right] = \mathcal{I}(\boldsymbol\beta) \end{displaymath}$

(2.62)

La matrice $\mathcal{I}$ , definita come il negativo dell'Hessiana, è chiamata expected Fisher information matrix e la sua inversa observed information matrix.

Subsections

Stima del Massimo a Posteriori

Paolo medici
2025-10-02