0 votes
par dans Séquence 8
Bonjour,

Il est surprenant que la couche dense donne en sortie exactement l'entrée ?

Jean-Yves

2 Réponses

0 votes
par Vétéran du GPU 🐋 (48.7k points)
sélectionné par
 
Meilleure réponse
C'est une représentation possible, mais on pourrait les vecteurs transformés comme ça a été le cas sur Q et K sur le schéma. D'ailleurs avec la multi head, l'un des intérets est d'avoir une projection V différente sur chaque tête de notre mécanisme d'attention.
0 votes
par Vétéran du GPU 🐋 (11.2k points)
Q, K, et V sont les entrées de la couche, la sortie est autre....
...