JEPA

/ˈdʒepə/

Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA

architecture advanced

JEPAとは何か?

Joint Embedding Predictive Architecture(JEPA)は、より人間らしいAIシステムを構築するためのYann LeCunの提案されたフレームワークです。2022年の彼の論文「A Path Towards Autonomous Machine Intelligence」で最初に概説されたJEPAは、LLMが使用する自己回帰アプローチの代替を表しています。

主要な洞察:**生のピクセルやトークンではなく、抽象表現を予測する。**これにより、システムは意味理解に焦点を当てながら、無関係な詳細を無視できます。

JEPAの仕組み

従来の生成モデル(GPTなど)は次のトークンやピクセルを直接予測します。JEPAは異なるアプローチを取ります:

  1. エンコード入力の一部を抽象表現(埋め込み)に
  2. 予測一部の埋め込みを別の部分から
  3. 学習予測された埋め込みを実際の埋め込みと比較することによって

これは「ピクセル/トークン空間」ではなく「埋め込み空間」で発生します—無関係な詳細をモデル化する必要性を排除する重要な区別。

なぜ生成モデルではないのか?

LeCunは、自己回帰生成モデル(LLM、拡散モデル)には根本的な制限があると主張します:

  • 計算の無駄: 無関係なものも含め、すべてのピクセル/トークンを予測
  • 不確実性処理: 複数の有効な未来に苦戦
  • 脆弱性: 正確な入力形式に敏感

JEPAは埋め込み空間で分布を予測することで不確実性を処理でき、複数の可能な結果を自然に受け入れます。

I-JEPA(画像)

MetaのImage-based JEPAは次によって学習します:

  • 画像を取り、その一部をマスク
  • 可視領域からマスクされた領域の埋め込みを予測
  • 予測された埋め込みと実際の埋め込みを比較

結果: 16台のA100 GPUで72時間未満で訓練された6億3200万パラメータモデルは、クラスあたりわずか12のラベル付き例でImageNetで最先端のローショット分類を達成。他の方法は2〜10倍の計算で悪い結果。

V-JEPA(ビデオ)

V-JEPAはアーキテクチャをビデオに拡張します:

“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” — Yann LeCun

「V-JEPAは、機械がより一般化された推論と計画を達成できるように、世界のより根拠のある理解への一歩です。」 — Yann LeCun

V-JEPA 2はロボティクス計画に成功裏に適用され、JEPAが現実世界の意思決定のための世界モデルとしてどのように機能できるかを示しています。

主要な利点

側面生成モデルJEPA
予測ターゲット生のピクセル/トークン抽象埋め込み
無関係な詳細すべてをモデル化する必要があるノイズを無視できる
不確実性単一出力複数の有効な結果
効率高計算より効率的
意味的焦点表面パターンより深い意味

JEPA vs. Transformer

JEPAはTransformerの代替ではありません—多くのJEPA実装はTransformerモジュールを使用します。それは、基礎となるアーキテクチャに関係なく、学習パラダイムとしての自己回帰生成の代替です。

ビジョン

LeCunはJEPAを人間レベルの推論を達成するための彼のビジョンの中核として位置づけています:

  1. 世界モデル: JEPAが世界の動作を学習
  2. 計画: 世界モデルを使用して行動の結果をシミュレート
  3. 推論: 複雑な決定空間をナビゲート

これは業界で支配的な「LLMをスケールアップ」アプローチと対照的です。

関連記事