Les "images" sont en effet des images de galaxies en astro, en 5 filtres, 64x64 pixels dont les pixels values sont des floatants postifs et negatifs (cf. images calibrées avec soustractions de bruits de fond par ex...) et la tache en est d'extraire une information sur la galaxie imagées.
Il existe des CNNs qui font cela bien entendu, mais je voulais tester un transformer....