Définition de la récompense

Question 1

Est-ce que cela facilite la convergence de l'apprentissage de donner une récompense au cours du "chemin" lorsque l'on se rapproche de l'objectif même si en soi la "vraie" récompense n'est obtenue qu'à la fin ?

Question 2

Bonjour, pour aller beaucoup plus loin dans la reflexion : https://lilianweng.github.io/posts/2020-06-07-exploration-drl/

Notamment avec la notion de curiosité (voir https://huggingface.co/learn/deep-rl-course/en/unit5/curiosity)

Question 3

Oui mais ne pourrait-on pas designer l'environnement de sorte à aider le réseau à aller dans la bonne direction ?

Question 4

C'est un autre moyen mais attention car avec cela notre environnement n'est plus forcément aligné avec la réalité et donc la performance du modèle en inférence (aka dans le monde réel) peuvent être très mauvaise

Question 5

un exemple :
Généralement dans les jeux vidéo, on guide le joueur avec des chemins éclairés (on joue sur la lumière) afin que sans s'en rendre compte il aille dans la bonne direction. Une IA dans ce monde aura une tâche donc plus simple, mais dans la vrai vie personne ne met des lanternes pour vous faire rentrer chez vous ;-)

Question 6

Cela peut être une méthode pour bootstraper le début de l'apprentissage. C'est très intuitif de commencer par des tâches simples puis d'augmenter la difficulté au fur et à mesure

anonyme · Answer 1 · 2024-04-04T13:36:34+0000

commentée par hunoutl[IDRIS] Vétéran du GPU 🐋 (68.8k points) 04 avril

Définition de la récompense

Votre réponse

3 Réponses

Votre commentaire sur cette réponse

Votre commentaire sur cette réponse

Votre commentaire sur cette réponse

Catégories