Bonjour,
Pourriez vous expliciter comment fonctionne Softmax ? Sur l'exemple de la diapo 35, je ne vois pas comment passer de la matrice d'attention à celle corrigée par Softmax. En particulier comment éviter des poids négatifs comme par exemple de passer de -.28 à 0.12.