0 votes
par dans Séquence 8
Il y a une étape ADD + NORM (Diapo 51) mais comment est faite l'addition ?
Les poids sont ils déterminés par l'apprentissage ?

1 Réponse

0 votes
par Vétéran du GPU 🐋 (11.2k points)
sélectionné par
 
Meilleure réponse
Non là c'est vraiment une adition simple.

Il faut voir le residual learning que l'on n'a pas abordé encore qui permet d'éviter le problème de "vanishing gradient" : en gros ca permet d'avoir des modèles profonds avec beaucoup de couches, sans cela ces modèles seraient impossibles à entrainer.
...