0 votes
par dans 08 - RNN et Embedding
Bonjour,

     J'avais une question naïve sur les RNN. Les chaines de Markov me semblent être des outils puissants pour les simulations. Cependant, vous avez présenté une structure similaire de RNN que vous dites ne pas fonctionner. Il semble absolument nécessaire de lui adjoindre une mémoire longue. A t'on une explication pour que ce qui me semble être un paradoxe ? Merci par avance pour vos réponses.

1 Réponse

0 votes
par Vétéran du GPU 🐋 (66.1k points)
sélectionné par
 
Meilleure réponse
Est-ce que vous pouvez fournir un timecode sur du cours en question, je ne comprend pas bien votre question ?
par
Les RNN tel que présenté au début de la vidéo réinjectent le précédent Y (t-1) pour avoir le suivant Y(t). Cela ressemble beaucoup à une chaine de Markov où Y(t) ne dépend que du Y(t-1). Or le premier ne marche pas: il faut y rajouter une mémoire longue. Je me posais donc la question: A t'on une hypothèse ou une raison pour comprendre ce soit disant paradoxe et l'échec des RNN où il y a simplement une réinjection de Y(t-1).
par Vétéran du GPU 🐋 (66.1k points)
Dans la réalité cela va dépendre de la tâche à accomplir, si la tâche nécéssite une information présente dans un passé lointain, le RNN va perdre cette information au fil de la récurence si ll n'a pas de mémoire, il ne pourra donc pas correctement répondre à la tâche.
On observe la même chose si on essaye de l'utiliser sur ces tâches à long terme avec des chaines de Markov
"Un processus de Markov est un processus stochastique possédant la propriété de Markov : l'information utile pour la prédiction du futur est entièrement contenue dans l'état présent du processus et n'est pas dépendante des états antérieurs (le système n'a pas de « mémoire »). "
Donc une simulation de diffusion de chaleur OK,
Mais un jeu de Go PAS OK
...