0 votes
par dans Séquence 4
le gradient est donc calculé par rapport à CHAQUE poids du modèle => 1milliard de poids => 1milliards de dimension pour le gradient ?

1 Réponse

0 votes
par Vétéran du GPU 🐋 (20.4k points)
sélectionné par
 
Meilleure réponse
Oui mais le gradient est calculé de façon matricielle donc cela reste “efficace”.
...