0 votes
par dans 09 - Transformers
Pourquoi les MoE permettent des résultats similaires au transformers classique pour un nombre de paramètres très réduits ? Comment une simple différence d'une couche a cet effet ?

1 Réponse

0 votes
par Vétéran du GPU 🐋 (11.2k points)
sélectionné par
 
Meilleure réponse
Alors non ce n'est pas un nombre très réduit !!
Sinon il n'y a rien de sûr sur le fait que les MoE soit plus interressant que les modèles denses (classiques).

Je vous renvoie vers ce Blog qui synthétise toute ma connaissance (gigantesque :)) sur le sujet !!
https://huggingface.co/blog/moe
...