Qu'est-ce qui distingue les réseaux menant à Key, Query et Value ?

commentée par anonyme 23 janvier 2023

commentée par Nathan[IDRIS] Vétéran du GPU 🐋 (48.7k points) 23 janvier 2023

Les poids appris sont différents parce que dans la formule, les trois matrices n'ont pas toute le même rôle. V intervient différemment et donc aura des gradients très différents des autres matrices. Les coefficients sont ensuite déterminés par la rétropropagation du gradient.

Dans la cross-attention, Q et K n'ont pas les mêmes entrées donc vont avoir des gradients très différents également. Dans la self attention, K et Q ont un rôle similaire donc on pourrait imaginer qu'elles soient identiques. Mais avec une initialisation différente, elles vont quand même avoir tendance à prendre des rôles différents, comme on peut le voir sur ce schéma (https://miro.medium.com/max/720/1*--uufcl0GMkT8_1cNLX0gA.webp) que j'ai honteusement volé de cet article (https://medium.com/analytics-vidhya/understanding-q-k-v-in-transformer-self-attention-9a5eddaa5960)

commentée par anonyme 23 janvier 2023

Qu'est-ce qui distingue les réseaux menant à Key, Query et Value ?

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories