0 votes
par dans Séquence 8
edité par
Que signifie exactement cette phrase ? (peut-être faut-il attendre la suite du cours...).

Efficaces en temps de calcul ? De taille de données ingérées ?

De metrics? ... De tout ça ??

1 Réponse

0 votes
par Vétéran du GPU 🐋 (68.8k points)
sélectionné par
 
Meilleure réponse
L'architecture du transformer est très efficace et permet une parallélisation importante. Il est idéale pour former de très gros modèle.

On va voir ça par la suite
par Vétéran du GPU 🐋 (11.2k points)
+1
Mais bien sur il y a un cout !! on pourra en débatre à la fin de la séquence.
...