JEPA

/ˈdʒepə/

Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA

architecture advanced

什么是 JEPA?

联合嵌入预测架构(JEPA)是 Yann LeCun 提出的构建更像人类的 AI 系统的框架。首次在他 2022 年的论文”通往自主机器智能的路径”中概述,JEPA 代表了大语言模型使用的自回归方法的替代方案。

关键洞察:预测抽象表示,而不是原始像素或标记。 这允许系统忽略不相关的细节,同时专注于语义理解。

JEPA 如何工作

传统的生成模型(如 GPT)直接预测下一个标记或像素。JEPA 采用不同的方法:

  1. 编码输入的部分为抽象表示(嵌入)
  2. 预测一个部分的嵌入从另一个部分
  3. 学习通过比较预测的嵌入与实际嵌入

这发生在”嵌入空间”而不是”像素/标记空间”——这是一个关键区别,消除了建模不相关细节的需要。

为什么不用生成模型?

LeCun 认为自回归生成模型(大语言模型、扩散模型)有根本性的局限性:

  • 计算浪费:预测每个像素/标记,即使是不相关的
  • 不确定性处理:难以处理多个有效的未来
  • 脆弱性:对精确的输入公式敏感

JEPA 可以通过在嵌入空间中预测分布来处理不确定性,自然地容纳多种可能的结果。

I-JEPA(图像)

Meta 的基于图像的 JEPA 通过以下方式学习:

  • 获取图像并掩盖其部分
  • 从可见区域预测掩盖区域的嵌入
  • 比较预测的与实际的嵌入

结果:在 16 个 A100 GPU 上训练不到 72 小时的 632M 参数模型,在 ImageNet 上仅用每类 12 个标记示例实现了最先进的少样本分类。其他方法需要 2-10 倍的计算才能获得更差的结果。

V-JEPA(视频)

V-JEPA 将架构扩展到视频:

“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” “V-JEPA 是朝着对世界更扎实理解迈出的一步,使机器能够实现更普遍的推理和规划。” — Yann LeCun

V-JEPA 2 已成功应用于机器人规划,展示了 JEPA 如何作为现实世界决策的世界模型。

关键优势

方面生成模型JEPA
预测目标原始像素/标记抽象嵌入
不相关细节必须建模一切可以忽略噪声
不确定性单一输出多个有效结果
效率高计算更高效
语义重点表面模式更深层次的含义

JEPA 与 Transformer

JEPA 不是 Transformer 的替代方案——许多 JEPA 实现使用 Transformer 模块。它是自回归生成作为学习范式的替代方案,无论底层架构如何。

愿景

LeCun 将 JEPA 定位为他实现人类级推理愿景的核心:

  1. 世界模型:JEPA 学习世界如何运作
  2. 规划:使用世界模型模拟行动后果
  3. 推理:导航复杂的决策空间

这与行业中占主导地位的”扩大大语言模型”方法形成对比。

相关阅读