C'est une représentation possible, mais on pourrait les vecteurs transformés comme ça a été le cas sur Q et K sur le schéma. D'ailleurs avec la multi head, l'un des intérets est d'avoir une projection V différente sur chaque tête de notre mécanisme d'attention.