Nelle reti neurali tradizionali, l'ottimizzazione dei pesi avviene a partire da valori iniziali scelti casualmente. Questa scelta, sebbene semplice da implementare, comporta che all'aumentare della profondità della rete le prestazioni tendano a degradare, mentre architetture più superficiali (con uno o due strati nascosti) risultano generalmente più stabili e facili da addestrare.
Storicamente, l'addestramento di reti neurali multistrato (MLP) tramite discesa del gradiente ha incontrato due ostacoli principali:
Di conseguenza, l'idea di utilizzare reti molto profonde per modellare problemi complessi è stata a lungo considerata impraticabile.
A partire dal 2012, grazie alla disponibilità di grandi quantità di dati (Big Data), alla crescente potenza di calcolo offerta dalle GPU e allo sviluppo di tecniche di ottimizzazione più efficaci (come Adam) 3.3.4, le reti neurali profonde hanno vissuto una vera e propria rinascita.
Un punto di svolta fondamentale fu la vittoria di AlexNet (KSH12b) alla competizione ImageNet Large Scale Visual Recognition Challenge (ILSVRC) del 2012: per la prima volta, una rete neurale convolutiva profonda superò nettamente gli approcci tradizionali, segnando l'inizio dell'era moderna del deep learning.
Da allora, le reti profonde sono diventate lo standard de facto in numerosi ambiti del machine learning. In particolare, l'elaborazione di dati strutturati come le immagini ha tratto enorme beneficio dalle reti neurali convolutive (CNN), che sfruttano la struttura spaziale del segnale visivo per apprendere in maniera più efficiente rappresentazioni gerarchiche e invarianti.
Paolo medici