Séquence animée par Bertrand Cabot (CNRS/IDRIS) et Léo Hunout (INRIA/IDRIS)
Après le supervisé et le non supervisé, la révolution du Deep Learning s’est également étendue à l’apprentissage par renforcement, occasionnant une accélération du développement de la robotique et en permettant aux IA de remporter des victoires face à la plupart des meilleurs joueurs humains (AlphaGo), d’élaborer des stratégies ou des tactiques, ou encore dernièrement, en participant au succès de ChatGPT (grâce au RLHF).
Le sujet est très vaste et cette séquence mériterait de très nombreuses heures, compte tenue de la complexité et de la richesse du domaine :-)
Durant ces 3 petites heures, nous essayerons de retracer, rapidement et ensemble, le chemin parcouru au XXe et XXIe siècle, et de comprendre les enjeux et les différentes techniques derrière ces IA qui ont (elles aussi) changées la donne !
Durée : 3h
Introduction au Reinforcement Learning (RL)
Optimal Control
Monte Carlo-Temporal difference
SARSA-On-Policy
Du RL au Deep RL
Policy Gradient
Deep Deterministic Policy Gradient
TP