De ChatGPT à DeepL ou AlphaFold, les Transformers sont omniprésents et ont objectivement révolutionnés le monde de l’IA :-)
Proposé par Ashish Vaswani en 2017, sous le titre “Attention Is All You Need”, les Transformers sont des réseaux de type “séquence to sequences”, tout comme les réseaux de neurones récurrents (RNN), qui gèrent des données de type séquentiel.
Leur force réside dans leur capacité à pondérer l’importance (mécanisme d’attention) de chaque terme de la séquence et à être fortement parallélisables.
Principe des neurones récurrents
Cellules et réseaux récurrents (RNN, LSTM, GRU)
Une plongée dans l’architecture des transformers. De l’encodage au décodage… une question d’attention
Trois grands types de transformers : encoder-only, decoder-only, encoder-decoder
Le modèle BERT : entraînement et finetuning
Utilisation des transformers dans différents domaines
Nouveaux modèles émergents