Fonctionnement de Softmax

Question 1

Bonjour,

Pourriez vous expliciter comment fonctionne Softmax ? Sur l'exemple de la diapo 35, je ne vois pas comment passer de la matrice d'attention à celle corrigée par Softmax. En particulier comment éviter des poids négatifs comme par exemple de passer de -.28 à 0.12.

Question 2

Le principe d'un softmax est de transformer un vecteur de logits en un vecteur de probabilités. On fait l'exponentielle de chaque coordonnées et on divise par la somme (https://fr.wikipedia.org/wiki/Fonction_softmax). Dans le cas des transformers et de la matrice d'attention, on ne le fait pas sur toute la matrice, on veut simplement que la somme sur chaque ligne fasse 1. On fait donc le softmax ligne par ligne.

Question 3

Merci pour votre réponse qui me convient parfaitement

Nathan[IDRIS] · Answer 1 · 2024-03-07T13:39:24+0000

Le principe d'un softmax est de transformer un vecteur de logits en un vecteur de probabilités. On fait l'exponentielle de chaque coordonnées et on divise par la somme (https://fr.wikipedia.org/wiki/Fonction_softmax). Dans le cas des transformers et de la matrice d'attention, on ne le fait pas sur toute la matrice, on veut simplement que la somme sur chaque ligne fasse 1. On fait donc le softmax ligne par ligne.

Fonctionnement de Softmax

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories