Les transformers sont-ils plus performants à heure de calcul équivalente?

Question

Les transformers sont-ils plus performants à heure de calcul équivalente?

1 Réponse

répondu par hatim[IDRIS] Vétéran du GPU 🐋 (20.4k points) 20 janvier 2023
sélectionné par Nathan[IDRIS] 20 janvier 2023

Meilleure réponse

Il y a quelques points que je voudrai d’abord éclaircir pour être sûr que l’on parte de la même base. Les Transformers sont plus performant que les autres modèles dans beaucoups de domaines, pas seulement dans le NLP. Par exemple, en Computer Vision, l’état de l’art dans la plupart des applications sont des solutions incluant des Transformers. Ensuite, lorsque l’on parle de parallélisation, nous ne parlons pas seulement de parallélisation entre plusieurs appareils (plusieurs GPU par ex) mais aussi de parallélisation qui se passe à l'intérieur du device. Donc, un RNN (difficilement parallélisable) sera moins performant sur un seul GPU qu’un Transformer sur le même GPU.
Maintenant, pour répondre à la question la réponse est la même que pour beaucoup de questions en IA : ça dépend…
Généralement, les Transformers sont capables de faire des tâches que les autres modèles ne sont pas capables de faire, donc la question ne se pose pas. Si une tâche peut être faite par un CNN classique, alors généralement le CNN va être plus performant (pour la même ressource de calcul), mais ce n’est pas tout le temps vrai. Pour les RNN, je ne connais pas d’application où il vaut mieux les utiliser plutôt qu’un Transformer.
Il faut aussi prendre en compte que généralement on finetune un Transformer pré-entrainé, donc le temps d'entraînement va être relativement plus court que de l'entraîner from scratch.

Les transformers sont-ils plus performants à heure de calcul équivalente?

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories