C’est une très bonne question, les deux méthodes que vous proposez semblent plausibles. Je rajouterai une possibilité : ajouter Z aux différents Xt dans une partie embedding avant de le faire passer dans un RNN.
Pour ce cas, les Transformers seraient plus efficaces que les RNN d’ailleurs.