0 votes
par (600 points) dans Séquence 8
Les Transformers sont beaucoup plus performants que les autres modèles dans le cadre des NLP. Seulement leur caractère parallélisable introduit un biais puisqu'ils peuvent être beaucoup plus massifs et demander des milliers d'heures de calcul, chose qu'il serait difficile de faire avec les autres réseaux pas ou peu parallélisables.

Si on prend un cas particulier où on contraint chacun des types de réseau au même temps de calcul total, est-ce que les transformers sont encore au dessus, ou c'est leur coté parallélisable qui leur confère un surplus de performance?

1 Réponse

+2 votes
par Vétéran du GPU 🐋 (20.4k points)
sélectionné par
 
Meilleure réponse
Il y a quelques points que je voudrai d’abord éclaircir pour être sûr que l’on parte de la même base. Les Transformers sont plus performant que les autres modèles dans beaucoups de domaines, pas seulement dans le NLP. Par exemple, en Computer Vision, l’état de l’art dans la plupart des applications sont des solutions incluant des Transformers. Ensuite, lorsque l’on parle de parallélisation, nous ne parlons pas seulement de parallélisation entre plusieurs appareils (plusieurs GPU par ex) mais aussi de parallélisation qui se passe à l'intérieur du device. Donc, un RNN (difficilement parallélisable) sera moins performant sur un seul GPU qu’un Transformer sur le même GPU.
Maintenant, pour répondre à la question la réponse est la même que pour beaucoup de questions en IA : ça dépend…
Généralement, les Transformers sont capables de faire des tâches que les autres modèles ne sont pas capables de faire, donc la question ne se pose pas. Si une tâche peut être faite par un CNN classique, alors généralement le CNN va être plus performant (pour la même ressource de calcul), mais ce n’est pas tout le temps vrai. Pour les RNN, je ne connais pas d’application où il vaut mieux les utiliser plutôt qu’un Transformer.
Il faut aussi prendre en compte que généralement on finetune un Transformer pré-entrainé, donc le temps d'entraînement va être relativement plus court que de l'entraîner from scratch.
...