0 votes
par dans Séquence 18
Etant donné que "l'impact de l'action sur l'environnement" vient servir d'input au réseau de neurones

=> Je suppose qu'il faut que la "conséquence de l'action" soit suffisamment complexe ? Sinon on retombe dans les problématiques où le dataset d'entrée est trop petit ?

Et du coup que le Deep-RL ne marchera pas sur des problèmes trop simples ?

1 Réponse

0 votes
par
sélectionné par
 
Meilleure réponse

En fait par rapport à la réponse faite oralement à cette question, je crois que j'avais loupé quelque chose

=> Le buffer d'expérience et le regroupement de plusieurs résultats d'actions

=> On va tester plusieurs choses, essayer d'apprendre de nos erreurs (ou de ce qui a été bien fait)

=> Puis on retente de nouvelles choses pour se faire un nouveau buffer d'XP (et le buffer gagne progressivement en qualité, on prend de plus en plus de bonnes décisions)

J'ai bon ?

par Vétéran du GPU 🐋 (68.8k points)
oui, c'est l'idée
Attention, on ne fait pas un *nouveau* buffer à chaque fois. C'est toujours le même à chaque step (il augmente en taille à chaque fois). Basiquement, le buffer est en FIFO. La taille du buffer est un hyperparamètre qui permet avec ce phénomène de glissade FIFO d'obtenir (si l'apprentissage avance) un buffer de meilleur qualité effectivement.
...