Il y a beaucoup de recherche sur des méthodes second ordre (ou d'autres méthodes pour remplacer la descente de gradient) mais rien ne bat la descente de gradient en performance (pour l’instant).
L’initialisation des valeurs de départ suivent des lois de probabilité faites pour éviter ce problème (initialisation Xavier par ex).