0 votes
par dans 09 - Transformers
Bonjour,

Que se passe-t-il si on calcule l'attention  en faisant Q*QT au lieu de Q*KT ?

Merci :)

1 Réponse

0 votes
par Vétéran du GPU 🐋 (10.9k points)
sélectionné par
 
Meilleure réponse
Bonjour, Q K, V vient du mecanisme d'attention où Q et K sont différents.

Hors là on vous présente l'auto-attention, donc effectivement oui Q = K
par Vétéran du GPU 🐋 (66.1k points)
Q et K != permet d'obtenir une matrice pas obligatoirement symétrique, chose utile si certains mots ont une importance vers d'autre unilatéralement seulement.
...