0 votes
par dans 15 - Deep Reinforcement Learning (DRL)
Est-ce que cela facilite la convergence de l'apprentissage de donner une récompense au cours du "chemin" lorsque l'on se rapproche de l'objectif même si en soi la "vraie" récompense n'est obtenue qu'à la fin ?

3 Réponses

0 votes
par Vétéran du GPU 🐋 (11.2k points)
sélectionné par
 
Meilleure réponse
Bonjour, pour aller beaucoup plus loin dans la reflexion : https://lilianweng.github.io/posts/2020-06-07-exploration-drl/

Notamment avec la notion de curiosité (voir https://huggingface.co/learn/deep-rl-course/en/unit5/curiosity)
+1 vote
par
Oui mais ne pourrait-on pas designer l'environnement de sorte à aider le réseau à aller dans la bonne direction ?
par Vétéran du GPU 🐋 (68.8k points)
C'est un autre moyen mais attention car avec cela notre environnement n'est plus forcément aligné avec la réalité et donc la performance du modèle en inférence (aka dans le monde réel) peuvent être très mauvaise
par Vétéran du GPU 🐋 (68.8k points)
un exemple :
Généralement dans les jeux vidéo, on guide le joueur avec des chemins éclairés (on joue sur la lumière) afin que sans s'en rendre compte il aille dans la bonne direction. Une IA dans ce monde aura une tâche donc plus simple, mais dans la vrai vie personne ne met des lanternes pour vous faire rentrer chez vous ;-)
0 votes
par Vétéran du GPU 🐋 (68.8k points)
Cela peut être une méthode pour bootstraper le début de l'apprentissage. C'est très intuitif de commencer par des tâches simples puis d'augmenter la difficulté au fur et à mesure
...