Lors de la présentation des Transformers, on voit sur le schéma explicatif une couche résiduelle (elle a aussi été mentionnée par le présentateur). C'est la flèche qui passe directement des entrées à la couche add and normalize sans passer par le mécanisme d'attention.
A quoi sert-elle?
J'ai remarqué que c'était le cas également au niveau des couches du Feed Forward Layer. Même question?
Et du coup, pourquoi le Feed Forward Layer s'appelle comme ça. Qu'est-ce qu'il a de spécifique? Je ne crois pas que cette notion ait été vue dans les sessions précédentes ou sinon sous un autre nom.