0 votes
par dans 09 - Transformers
Lors de la présentation des Transformers, on voit sur le schéma explicatif  une couche résiduelle (elle a aussi été mentionnée par le présentateur). C'est la flèche qui passe directement des entrées à la couche add and normalize sans passer par le mécanisme d'attention.

A quoi sert-elle?

J'ai remarqué que c'était le cas également au niveau des couches du Feed Forward Layer. Même question?

Et du coup, pourquoi le Feed Forward Layer s'appelle comme ça. Qu'est-ce qu'il a de spécifique? Je ne crois pas que cette notion ait été vue dans les sessions précédentes ou sinon sous un autre nom.

1 Réponse

0 votes
par Vétéran du GPU 🐋 (68.8k points)
sélectionné par
 
Meilleure réponse
La couche résiduelle sert dans les transformers, comme ailleurs, de skip-connection afin d''éviter la disparition du gradient lors de la backpropagation.

La FeedForward Layer est une couche simple avec un flow à sens unique.

Vous pouvez consulter ce blog qui est vraiment pas mal : http://jalammar.github.io/illustrated-transformer/
...