De ChatGPT à DeepL ou AlphaFold, les Transformers sont omniprésents et ont objectivement révolutionnés le monde de l’IA :-)
Proposé par Ashish Vaswani en 2017, sous le titre “Attention Is All You Need”, les Transformers sont des réseaux de type “séquence to sequences”, tout comme les RNN vus lors de la dernière séquence.
Leur force réside dans leur capacité à pondérer l’importance de chaque terme de la séquence et à être fortement parallélisables.
Concept et utilisation des transformers
Principe du mécanisme d’attention et du multi-head attention
Architectures des transformers (auto-regressive, auto-encoding et encoder decoder)
Pré-entraînement (BERT et GPT)
Fine tuning
Utilisation des transformers dans les autres domaines