JEPA
/ˈdʒepə/
Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA
什么是 JEPA?
联合嵌入预测架构(JEPA)是 Yann LeCun 提出的构建更像人类的 AI 系统的框架。首次在他 2022 年的论文”通往自主机器智能的路径”中概述,JEPA 代表了大语言模型使用的自回归方法的替代方案。
关键洞察:预测抽象表示,而不是原始像素或标记。 这允许系统忽略不相关的细节,同时专注于语义理解。
JEPA 如何工作
传统的生成模型(如 GPT)直接预测下一个标记或像素。JEPA 采用不同的方法:
- 编码输入的部分为抽象表示(嵌入)
- 预测一个部分的嵌入从另一个部分
- 学习通过比较预测的嵌入与实际嵌入
这发生在”嵌入空间”而不是”像素/标记空间”——这是一个关键区别,消除了建模不相关细节的需要。
为什么不用生成模型?
LeCun 认为自回归生成模型(大语言模型、扩散模型)有根本性的局限性:
- 计算浪费:预测每个像素/标记,即使是不相关的
- 不确定性处理:难以处理多个有效的未来
- 脆弱性:对精确的输入公式敏感
JEPA 可以通过在嵌入空间中预测分布来处理不确定性,自然地容纳多种可能的结果。
I-JEPA(图像)
Meta 的基于图像的 JEPA 通过以下方式学习:
- 获取图像并掩盖其部分
- 从可见区域预测掩盖区域的嵌入
- 比较预测的与实际的嵌入
结果:在 16 个 A100 GPU 上训练不到 72 小时的 632M 参数模型,在 ImageNet 上仅用每类 12 个标记示例实现了最先进的少样本分类。其他方法需要 2-10 倍的计算才能获得更差的结果。
V-JEPA(视频)
V-JEPA 将架构扩展到视频:
“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” “V-JEPA 是朝着对世界更扎实理解迈出的一步,使机器能够实现更普遍的推理和规划。” — Yann LeCun
V-JEPA 2 已成功应用于机器人规划,展示了 JEPA 如何作为现实世界决策的世界模型。
关键优势
| 方面 | 生成模型 | JEPA |
|---|---|---|
| 预测目标 | 原始像素/标记 | 抽象嵌入 |
| 不相关细节 | 必须建模一切 | 可以忽略噪声 |
| 不确定性 | 单一输出 | 多个有效结果 |
| 效率 | 高计算 | 更高效 |
| 语义重点 | 表面模式 | 更深层次的含义 |
JEPA 与 Transformer
JEPA 不是 Transformer 的替代方案——许多 JEPA 实现使用 Transformer 模块。它是自回归生成作为学习范式的替代方案,无论底层架构如何。
愿景
LeCun 将 JEPA 定位为他实现人类级推理愿景的核心:
- 世界模型:JEPA 学习世界如何运作
- 规划:使用世界模型模拟行动后果
- 推理:导航复杂的决策空间
这与行业中占主导地位的”扩大大语言模型”方法形成对比。
相关阅读
- Yann LeCun - Meta 首席 AI 科学家,JEPA 架构师
- 世界模型 - JEPA 旨在构建的内容