L'algoritmo di discesa del gradiente (gradient descent GD o steepest descent) aggiorna i pesi
a ogni iterazione usando il gradiente (anzi l'antigradiente) di
:
Avendo inserito nell'espressione (3.37) un parametro deciso dall'utente, questo approccio è empirico e dipendente dal problema se non dall'esperienza dell'utilizzatore umano.
A seguito di questa osservazione e confrontando l'equazione di discesa del gradiente con l'equazione (3.36), si intuisce che il metodo di Newton è di fatto un caso particolare di discesa del gradiente. Si può ottenere pertanto una migliore ottimizzazione sostituendo il parametro scalare con la matrice definita positiva
ottenuta dall'inversa dell'Hessiana nel punto:
(3.39) |
Paolo medici