Gauss-Newton

I metodi visti finora lasciano molta libertà sulla scelta di una particolare loss-function piuttosto che di un'altra. Nei casi pratici in cui la funzione costo $\ell$ è quadratica si possono fare delle ottimizzazioni ulteriori al metodo di Newton evitando il gravoso calcolo dell'Hessiana. In questo caso la loss-function assume la forma già vista in precedenza
\begin{displaymath}
S(\boldsymbol\beta) = \frac{1}{2} \mathbf{r}^{\top} \mathbf{r} = \frac{1}{2} \sum_{i=1}^{n} r_i^2 (\boldsymbol\beta)
\end{displaymath} (3.42)

Il termine $1/2$ nella funzione costo serve per avere una espressione dello Jacobiano più compatta.

Con questa funzione costo gradiente ed Hessiana si scrivono come

\begin{displaymath}
\begin{array}{l}
\nabla S(\boldsymbol\beta) = \sum_{i=1}^{...
...thbf{J}_{r} + \sum_{i=1}^{n} r_i \mathbf{H}_{r_i}
\end{array}\end{displaymath} (3.43)

Quando i parametri sono vicini alla soluzione esatta il residuo è piccolo e l'Hessiana può essere approssimata solo dal primo termine dell'espressione ovvero

\begin{displaymath}
\mathbf{H}_S(\boldsymbol\beta) \approx \mathbf{J}_{r}^{\top}\mathbf{J}_{r}
\end{displaymath} (3.44)

In queste condizioni il gradiente e l'Hessiana della funzione costo $S$ possono essere scritte in funzione del solo Jacobiano delle funzioni $r_i(\boldsymbol\beta)$. L'espressione dell'Hessiana cosı approssimata può essere inserita in equazione (3.35):
\begin{displaymath}
- \mathbf{J}_{r}^{\top} \mathbf{r} = \mathbf{H}_{S} \boldsy...
...ox \mathbf{J}_{r}^{\top}\mathbf{J}_{r} \boldsymbol\delta_\beta
\end{displaymath} (3.45)

Questo, come nel caso di Newton, è un problema di minimo lineare che si può risolvere attraverso l'uso delle normal equations:
\begin{displaymath}
\boldsymbol\delta_\beta = - \left( \mathbf{J}_{r}^{\top}\mathbf{J}_{r} \right)^{-1} \mathbf{J}_{r}^{\top} \mathbf{r}
\end{displaymath} (3.46)

Il significato delle normal equations è geometrico: il minimo si ottiene infatti quando $\mathbf{J}\boldsymbol\delta_\beta - \mathbf{r}$ diventa ortogonale allo spazio colonne di $\mathbf{J}$.

Nel caso particolare di funzione residuo scritta come

\begin{displaymath}
r_i = y_i - f_i(\mathbf{x}_i ; \boldsymbol\beta)
\end{displaymath} (3.47)

ovvero come quelle di equazione (3.6), è possibile usare $\mathbf{J}_f$, Jacobiano di $f$, invece di $\mathbf{J}_r$
\begin{displaymath}
\boldsymbol\delta_\beta = \left( \mathbf{J}_{f}^{\top}\mathbf{J}_{f} \right)^{-1} \mathbf{J}_{f}^{\top} \mathbf{r}
\end{displaymath} (3.48)

avendo osservato che le derivate di $r_i$ e $f_i(\mathbf{x}_i)$ sono uguali a meno del segno3.2.



Footnotes

... segno3.2
Chiaramente le derivate coincidono quando si sceglie un residuo del tipo $r_i = \hat{y}_i - y_i$.
Paolo medici
2024-01-10