Ils viennent du Decoder lui-même. Le premier token qu’on lui donnera est un token spécial pour le début de séquence (donc le token = début), il générera un nouveau token avec pour entrée le token début de séquence. Ce token sera ajouté à la séquence Output Embedding qui sera à nouveau l'entrée du Decoder (c’est donc une boucle). C’est une méthode autorégressive pour résumer.