0 votes
par dans 09 - Transformers
Bonjour,

Pourriez vous expliciter comment fonctionne Softmax ? Sur l'exemple de la diapo 35, je ne vois pas comment passer de la matrice d'attention à celle corrigée par Softmax. En particulier comment éviter des poids négatifs comme par exemple de passer de -.28 à 0.12.

1 Réponse

0 votes
par Vétéran du GPU 🐋 (46.6k points)
sélectionné par
 
Meilleure réponse
Le principe d'un softmax est de transformer un vecteur de logits en un vecteur de probabilités. On fait l'exponentielle de chaque coordonnées et on divise par la somme (https://fr.wikipedia.org/wiki/Fonction_softmax). Dans le cas des transformers et de la matrice d'attention, on ne le fait pas sur toute la matrice, on veut simplement que la somme sur chaque ligne fasse 1. On fait donc le softmax ligne par ligne.
par
Merci pour votre réponse qui me convient parfaitement
...