强化学习

/ˌriːɪnˈfɔːrsmənt ˈlɜːrnɪŋ/

Also known as: RL, reward-based learning, trial-and-error learning

research intermediate

什么是强化学习?

强化学习(RL)是机器学习的一个分支,代理通过与环境互动来学习决策。与监督学习(模型从标记示例中学习)不同,强化学习代理通过试错学习,根据其行动获得奖励或惩罚。目标是发现一个策略——一种选择行动的策略——随着时间的推移最大化累积奖励。

该范式受到行为心理学的启发:正如动物通过正面和负面强化学习行为一样,强化学习代理通过体验其行动的后果来学习。

关键组成部分

代理(Agent):在环境中采取行动的学习者或决策者。

环境(Environment):代理与之互动的世界,根据代理的行动而变化。

状态(State):代理所处当前情况的表示。

行动(Action):代理可以做出的影响环境的选择。

奖励(Reward):指示行动好坏程度的数值信号。

策略(Policy):代理用于在给定状态下选择行动的策略。

为什么强化学习对 AI 重要

强化学习一直是 AI 许多最令人印象深刻的成就的核心:

  • 游戏玩法:DeepMind 的 AlphaGo 使用强化学习击败围棋世界冠军
  • 机器人技术:强化学习使机器人能够通过练习学习复杂的运动技能
  • 大语言模型对齐:RLHF(基于人类反馈的强化学习)成为对齐 ChatGPT、Claude 和 Gemini 等大型语言模型的默认技术

2025 年,强化学习随着 DeepSeek-R1 等突破性成果而复苏,该模型使用基于强化学习的训练实现了重大推理改进。研究人员越来越多地转向强化学习来加强 AI 系统的推理能力和代理行为。

RLHF:大语言模型连接

强化学习在现代 AI 中最重要的应用是 基于人类反馈的强化学习(RLHF)。典型的流程包括:

  1. 预训练:在大型数据集上训练基础模型
  2. 监督微调:用人类标记的示例进行精炼
  3. 奖励建模:人类对输出进行排名以训练奖励模型
  4. 强化学习微调:使用 PPO(近端策略优化)针对奖励模型进行优化

OpenAI 联合创始人 John Schulman 发明了 PPO——这一算法为大部分工作提供了动力。RLHF 已成为使 AI 系统有帮助、无害和诚实的标准方法。

限制和批评

尽管取得了成功,强化学习仍有根本性的局限性。正如 Yejin Choi 所指出的,强化学习提供奖励信号,但不教会模型如何推理。模型学习哪些输出获得高奖励,而不一定理解为什么。

这就是为什么一些研究人员认为纯强化学习方法可能会遇到瓶颈——它们优化结果而不发展真正的理解或发现新解决方案的能力。

相关阅读

Mentioned In

Video thumbnail

Yejin Choi

Reinforcement learning gives you a reward signal, but it doesn't teach the model how to reason about the world.