Il y a quelques points que je voudrai d’abord éclaircir pour être sûr que l’on parte de la même base. Les Transformers sont plus performant que les autres modèles dans beaucoups de domaines, pas seulement dans le NLP. Par exemple, en Computer Vision, l’état de l’art dans la plupart des applications sont des solutions incluant des Transformers. Ensuite, lorsque l’on parle de parallélisation, nous ne parlons pas seulement de parallélisation entre plusieurs appareils (plusieurs GPU par ex) mais aussi de parallélisation qui se passe à l'intérieur du device. Donc, un RNN (difficilement parallélisable) sera moins performant sur un seul GPU qu’un Transformer sur le même GPU.
Maintenant, pour répondre à la question la réponse est la même que pour beaucoup de questions en IA : ça dépend…
Généralement, les Transformers sont capables de faire des tâches que les autres modèles ne sont pas capables de faire, donc la question ne se pose pas. Si une tâche peut être faite par un CNN classique, alors généralement le CNN va être plus performant (pour la même ressource de calcul), mais ce n’est pas tout le temps vrai. Pour les RNN, je ne connais pas d’application où il vaut mieux les utiliser plutôt qu’un Transformer.
Il faut aussi prendre en compte que généralement on finetune un Transformer pré-entrainé, donc le temps d'entraînement va être relativement plus court que de l'entraîner from scratch.