Gauss-Newton

I metodi visti finora lasciano molta libertà nella scelta della loss function. Nei casi pratici in cui la funzione costo $\ell$ è quadratica, si possono introdurre ottimizzazioni ulteriori rispetto al metodo di Newton, evitando il gravoso calcolo dell'Hessiana.

In questo caso, la loss function assume la forma già vista in precedenza:

\begin{displaymath}
S(\boldsymbol\beta) = \frac{1}{2} \mathbf{r}^{\top} \mathbf{r} = \frac{1}{2} \sum_{i=1}^{n} r_i^2 (\boldsymbol\beta)
\end{displaymath} (3.46)

Il termine $1/2$ serve per ottenere un'espressione del gradiente più compatta.

Con questa funzione costo, gradiente e Hessiana si scrivono come:

\begin{displaymath}
\begin{array}{l}
\nabla S(\boldsymbol\beta) = \sum_{i=1}^{...
...athbf{J}_{r} + \sum_{i=1}^{n} r_i \mathbf{H}_{r_i}
\end{array}\end{displaymath} (3.47)

Quando i parametri sono vicini alla soluzione, il residuo è piccolo e l'Hessiana può essere approssimata dal primo termine:

\begin{displaymath}
\mathbf{H}_S(\boldsymbol\beta) \approx \mathbf{J}_{r}^{\top}\mathbf{J}_{r}
\end{displaymath} (3.48)

In queste condizioni, gradiente e Hessiana della funzione costo $S$ dipendono solo dal Jacobiano delle funzioni $r_i(\boldsymbol\beta)$. L'Hessiana cosı approssimata può essere inserita nell'equazione (3.35):

\begin{displaymath}
- \mathbf{J}_{r}^{\top} \mathbf{r} = \mathbf{H}_{S} \boldsy...
...ox \mathbf{J}_{r}^{\top}\mathbf{J}_{r} \boldsymbol\delta_\beta
\end{displaymath} (3.49)

Come nel caso del metodo di Newton, si ottiene un problema di minimo lineare risolvibile tramite le normal equations:

\begin{displaymath}
\boldsymbol\delta_\beta = - \left( \mathbf{J}_{r}^{\top}\mathbf{J}_{r} \right)^{-1} \mathbf{J}_{r}^{\top} \mathbf{r}
\end{displaymath} (3.50)

Il significato delle normal equations è geometrico: il minimo si ottiene quando $\mathbf{J}\boldsymbol\delta_\beta - \mathbf{r}$ è ortogonale allo spazio colonne di $\mathbf{J}$.

Nel caso particolare in cui il residuo sia scritto come:

\begin{displaymath}
r_i = y_i - f_i(\mathbf{x}_i ; \boldsymbol\beta)
\end{displaymath} (3.51)

ovvero come in equazione (3.6), è possibile usare $\mathbf{J}_f$, Jacobiano di $f$, invece di $\mathbf{J}_r$:
\begin{displaymath}
\boldsymbol\delta_\beta = \left( \mathbf{J}_{f}^{\top}\mathbf{J}_{f} \right)^{-1} \mathbf{J}_{f}^{\top} \mathbf{r}
\end{displaymath} (3.52)

avendo osservato che le derivate di $r_i$ e $f_i(\mathbf{x}_i)$ coincidono a meno del segno.3.2



Footnotes

... segno.3.2
Le derivate coincidono quando si sceglie un residuo del tipo $r_i = \hat{y}_i - y_i$.
Paolo medici
2025-10-02