Reinforcement Learning

/ˌriːɪnˈfɔːrsmənt ˈlɜːrnɪŋ/

Also known as: RL, reward-based learning, trial-and-error learning

research intermediate

Was ist Reinforcement Learning?

Reinforcement Learning (RL) ist ein Zweig des maschinellen Lernens, bei dem ein Agent lernt, Entscheidungen zu treffen, indem er mit einer Umgebung interagiert. Im Gegensatz zum überwachten Lernen, bei dem das Modell aus gelabelten Beispielen lernt, lernen RL-Agenten durch Versuch und Irrtum und erhalten Belohnungen oder Strafen basierend auf ihren Aktionen. Das Ziel ist es, eine Policy zu entdecken - eine Strategie zur Auswahl von Aktionen -, die die kumulative Belohnung über die Zeit maximiert.

Das Paradigma ist von der Verhaltenspsychologie inspiriert: So wie Tiere Verhaltensweisen durch positive und negative Verstärkung lernen, lernen RL-Agenten, indem sie die Konsequenzen ihrer Aktionen erfahren.

Schlüsselkomponenten

Agent: Der Lerner oder Entscheidungsträger, der Aktionen in der Umgebung ausführt.

Umgebung: Die Welt, mit der der Agent interagiert und die sich basierend auf den Aktionen des Agenten verändert.

Zustand: Eine Darstellung der aktuellen Situation, in der sich der Agent befindet.

Aktion: Eine Wahl, die der Agent treffen kann und die die Umgebung beeinflusst.

Belohnung: Ein numerisches Signal, das anzeigt, wie gut oder schlecht eine Aktion war.

Policy: Die Strategie, die der Agent verwendet, um Aktionen basierend auf Zuständen auszuwählen.

Warum Reinforcement Learning für KI wichtig ist

Reinforcement Learning war zentral für viele der beeindruckendsten Errungenschaften der KI:

  • Spielen: DeepMinds AlphaGo nutzte RL, um den Weltmeister im Go zu besiegen
  • Robotik: RL ermöglicht Robotern, komplexe motorische Fähigkeiten durch Übung zu lernen
  • LLM-Alignment: RLHF (Reinforcement Learning from Human Feedback) wurde zur Standard-Technik für das Ausrichten großer Sprachmodelle wie ChatGPT, Claude und Gemini

2025 erlebte RL ein Wiederaufleben mit Durchbrüchen wie DeepSeek-R1, das RL-basiertes Training nutzte, um große Reasoning-Verbesserungen zu erzielen. Forscher wenden sich zunehmend RL zu, um Reasoning-Fähigkeiten und agentisches Verhalten in KI-Systemen zu stärken.

RLHF: Die LLM-Verbindung

Die bedeutendste Anwendung von RL in moderner KI ist Reinforcement Learning from Human Feedback (RLHF). Die typische Pipeline umfasst:

  1. Pre-Training: Ein Foundation-Modell auf großen Datensätzen trainieren
  2. Supervised Fine-Tuning: Mit von Menschen gelabelten Beispielen verfeinern
  3. Reward Modeling: Menschen ranken Outputs, um ein Reward-Modell zu trainieren
  4. RL Fine-Tuning: PPO (Proximal Policy Optimization) verwenden, um gegen das Reward-Modell zu optimieren

John Schulman, Mitgründer von OpenAI, erfand PPO - den Algorithmus, der viel von dieser Arbeit antrieb. RLHF ist zum Standardansatz geworden, um KI-Systeme hilfreich, harmlos und ehrlich zu machen.

Einschränkungen und Kritik

Trotz seiner Erfolge hat RL fundamentale Einschränkungen. Wie Yejin Choi anmerkt, liefert Reinforcement Learning Belohnungssignale, aber lehrt Modelle nicht, wie sie über die Welt nachdenken sollen. Das Modell lernt, welche Outputs hohe Belohnungen erhalten, ohne notwendigerweise zu verstehen, warum.

Deshalb argumentieren einige Forscher, dass reine RL-Ansätze an Grenzen stoßen könnten - sie optimieren für Ergebnisse, ohne echtes Verständnis oder die Fähigkeit zu entwickeln, neuartige Lösungen zu entdecken.

Weiterführende Lektüre

Mentioned In

Video thumbnail

Yejin Choi

Reinforcement learning gives you a reward signal, but it doesn't teach the model how to reason about the world.