Depuis 2013 avec la sortie du papier de Deepmind “Playing Atari with Deep Reinforcement Learning”, puis avec Alphago, ou encore, avec la dextérité robotique des bras articulés d’OpenAI, le Deep Reinforcement Learning (DRL) est apparu comme la première étincelle d’Intelligece Artificielle forte, bien avant ce que l’on appelle aujourd’hui l’IA générative.
L’objectif de cette séquence est de décrire les modèles de cette catégorie particulière du Deep Learning, qui permet à un agent artificiel incarné dans un environnement réel, numérique ou simulé, d’apprendre tout en interagissant avec cette environnement.
Le modèle prend en entrée une observation, et génère en sortie une stratégie (policy), une séquence d’actions.
L’apprentissage est guidé par une fonction de récompense (positive ou négative).
Qu’est ce que l’apprentissage par renforcement ?
Le Reinforcement Learning classique du XXe siècle et toutes les notions nécessaires pour comprendre la suite.
Le Deep Reinforcement Learning dans le dur : DQN, On-policy Gradient, Off-policy Gradient, Actor-Critic, A2C, TRPO, PPO, DDPG, SAC, …
Une discussion sur l’état de l’Art et les Perspectives de cette branche qui, il est vrai, pâtit du succès actuel et retentissant de l’IA générative (Transformer) !