L'algoritmo di discesa del gradiente (gradient descent, GD, o steepest descent) aggiorna i pesi
a ogni iterazione usando il gradiente (più precisamente, l'antigradiente) della funzione obiettivo
:
Poiché il parametro è scelto manualmente, l'approccio risulta empirico e dipendente dal problema, se non dall'esperienza dell'utilizzatore.
Confrontando l'equazione (3.37) con l'equazione (3.36), si osserva che il metodo di Newton è di fatto un caso particolare di discesa del gradiente, in cui il parametro scalare
viene sostituito da una matrice definita positiva
, ottenuta come inversa dell'Hessiana nel punto corrente:
| (3.39) |
La discesa del gradiente del secondo ordine corrisponde quindi all'algoritmo di Newton, che - sotto opportune ipotesi - garantisce una convergenza quadratica, in contrasto con la convergenza lineare della discesa del gradiente classica.
Paolo medici