Reinforcement Learning
/ˌriːɪnˈfɔːrsmənt ˈlɜːrnɪŋ/
Also known as: RL, reward-based learning, trial-and-error learning
Qu’est-ce que l’apprentissage par renforcement ?
L’apprentissage par renforcement (Reinforcement Learning ou RL) est une branche de l’apprentissage automatique où un agent apprend à prendre des décisions en interagissant avec un environnement. Contrairement à l’apprentissage supervisé où le modèle apprend à partir d’exemples étiquetés, les agents RL apprennent par essais et erreurs, recevant des récompenses ou des pénalités en fonction de leurs actions. L’objectif est de découvrir une politique—une stratégie pour choisir des actions—qui maximise la récompense cumulative au fil du temps.
Le paradigme s’inspire de la psychologie comportementale : tout comme les animaux apprennent des comportements par renforcement positif et négatif, les agents RL apprennent en expérimentant les conséquences de leurs actions.
Composants clés
Agent : L’apprenant ou le décideur qui prend des actions dans l’environnement.
Environnement : Le monde avec lequel l’agent interagit, qui change en fonction des actions de l’agent.
État : Une représentation de la situation actuelle dans laquelle l’agent se trouve.
Action : Un choix que l’agent peut faire qui affecte l’environnement.
Récompense : Un signal numérique indiquant à quel point une action était bonne ou mauvaise.
Politique : La stratégie que l’agent utilise pour choisir des actions en fonction des états.
Pourquoi l’apprentissage par renforcement est important pour l’IA
L’apprentissage par renforcement a été au cœur de nombreuses réalisations les plus impressionnantes de l’IA :
- Jeux : AlphaGo de DeepMind a utilisé le RL pour battre le champion du monde au Go
- Robotique : Le RL permet aux robots d’apprendre des compétences motrices complexes par la pratique
- Alignement LLM : Le RLHF (Reinforcement Learning from Human Feedback) est devenu la technique par défaut pour aligner les grands modèles de langage comme ChatGPT, Claude et Gemini
En 2025, le RL a connu une résurgence avec des percées comme DeepSeek-R1, qui a utilisé l’entraînement basé sur le RL pour réaliser d’importantes améliorations du raisonnement. Les chercheurs se tournent de plus en plus vers le RL pour renforcer les capacités de raisonnement et le comportement agentique dans les systèmes d’IA.
RLHF : La connexion LLM
L’application la plus importante du RL dans l’IA moderne est le Reinforcement Learning from Human Feedback (RLHF). Le pipeline typique implique :
- Pré-entraînement : Entraîner un modèle de base sur de grands ensembles de données
- Ajustement fin supervisé : Affiner avec des exemples étiquetés par des humains
- Modélisation de récompense : Les humains classent les sorties pour entraîner un modèle de récompense
- Ajustement fin RL : Utiliser PPO (Proximal Policy Optimization) pour optimiser par rapport au modèle de récompense
John Schulman, co-fondateur d’OpenAI, a inventé PPO—l’algorithme qui a alimenté une grande partie de ce travail. Le RLHF est devenu l’approche standard pour rendre les systèmes d’IA utiles, inoffensifs et honnêtes.
Limitations et critiques
Malgré ses succès, le RL a des limitations fondamentales. Comme le note Yejin Choi, l’apprentissage par renforcement fournit des signaux de récompense mais n’apprend pas aux modèles comment raisonner. Le modèle apprend quelles sorties obtiennent des récompenses élevées sans nécessairement comprendre pourquoi.
C’est pourquoi certains chercheurs soutiennent que les approches RL pures peuvent atteindre des plafonds—elles optimisent pour les résultats sans développer une véritable compréhension ou la capacité de découvrir des solutions nouvelles.
Lectures connexes
- John Schulman - Co-fondateur d’OpenAI, inventeur de PPO
- Abductive Reasoning - Une forme de raisonnement que le RL peine à capturer