RNN et chaine de markov

Question 1

Bonjour,

J'avais une question naïve sur les RNN. Les chaines de Markov me semblent être des outils puissants pour les simulations. Cependant, vous avez présenté une structure similaire de RNN que vous dites ne pas fonctionner. Il semble absolument nécessaire de lui adjoindre une mémoire longue. A t'on une explication pour que ce qui me semble être un paradoxe ? Merci par avance pour vos réponses.

Question 2

Est-ce que vous pouvez fournir un timecode sur du cours en question, je ne comprend pas bien votre question ?

Question 3

Les RNN tel que présenté au début de la vidéo réinjectent le précédent Y (t-1) pour avoir le suivant Y(t). Cela ressemble beaucoup à une chaine de Markov où Y(t) ne dépend que du Y(t-1). Or le premier ne marche pas: il faut y rajouter une mémoire longue. Je me posais donc la question: A t'on une hypothèse ou une raison pour comprendre ce soit disant paradoxe et l'échec des RNN où il y a simplement une réinjection de Y(t-1).

Question 4

Dans la réalité cela va dépendre de la tâche à accomplir, si la tâche nécéssite une information présente dans un passé lointain, le RNN va perdre cette information au fil de la récurence si ll n'a pas de mémoire, il ne pourra donc pas correctement répondre à la tâche.
On observe la même chose si on essaye de l'utiliser sur ces tâches à long terme avec des chaines de Markov
"Un processus de Markov est un processus stochastique possédant la propriété de Markov : l'information utile pour la prédiction du futur est entièrement contenue dans l'état présent du processus et n'est pas dépendante des états antérieurs (le système n'a pas de « mémoire »). "
Donc une simulation de diffusion de chaleur OK,
Mais un jeu de Go PAS OK

hunoutl[IDRIS] · Answer 1 · 2024-02-21T08:53:31+0000

commentée par jfbureau 21 février

commentée par hunoutl[IDRIS] Vétéran du GPU 🐋 (68.8k points) 29 mars

RNN et chaine de markov

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories