On va voir ça dans la suite du cours. Rapidement, oui c'est possible.
Il faut transformer l'image en une séquence. Concernant la performance, les transformers s'en sortent très bien. Le point positif étant qu'on profite de l'architecture pour pouvoir scale le modèle en taille.
ViT est un modèle connu