0 votes
par dans Séquence 4 : TP
1000 itérations ... cela semble peu efficace.

Y a t'il mieux que de faire une descente de gradient ?

De plus, quel est l'impact des valeurs de départ ? Risque de minima locaux ?

1 Réponse

0 votes
par Vétéran du GPU 🐋 (20.4k points)
 
Meilleure réponse
Il y a beaucoup de recherche sur des méthodes second ordre (ou d'autres méthodes pour remplacer la descente de gradient) mais rien ne bat la descente de gradient en performance (pour l’instant).

L’initialisation des valeurs de départ suivent des lois de probabilité faites pour éviter ce problème (initialisation Xavier par ex).
...