JEPA

/ˈdʒepə/

Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA

architecture advanced

Was ist JEPA?

Joint Embedding Predictive Architecture (JEPA) ist Yann LeCuns vorgeschlagenes Framework zum Aufbau menschenähnlicherer KI-Systeme. Erstmals skizziert in seinem Paper 2022 “A Path Towards Autonomous Machine Intelligence”, repräsentiert JEPA eine Alternative zum autoregressiven Ansatz, der von LLMs verwendet wird.

Die Schlüsseleinsicht: Sagen Sie abstrakte Repräsentationen voraus, nicht rohe Pixel oder Tokens. Dies ermöglicht dem System, irrelevante Details zu ignorieren und sich auf semantisches Verständnis zu konzentrieren.

Wie JEPA funktioniert

Traditionelle generative Modelle (wie GPT) sagen das nächste Token oder Pixel direkt voraus. JEPA verfolgt einen anderen Ansatz:

  1. Kodieren von Teilen einer Eingabe in abstrakte Repräsentationen (Embeddings)
  2. Vorhersagen des Embeddings eines Teils aus einem anderen Teil
  3. Lernen durch Vergleich vorhergesagter Embeddings mit tatsächlichen Embeddings

Dies geschieht im “Embedding-Raum” statt im “Pixel/Token-Raum” - eine entscheidende Unterscheidung, die die Notwendigkeit eliminiert, irrelevante Details zu modellieren.

Warum nicht generative Modelle?

LeCun argumentiert, dass autoregressive generative Modelle (LLMs, Diffusionsmodelle) fundamentale Einschränkungen haben:

  • Rechenverschwendung: Vorhersage jedes Pixels/Tokens, auch irrelevanter
  • Unsicherheitsbehandlung: Kämpfen mit mehreren gültigen Zukünften
  • Brüchigkeit: Empfindlich gegenüber exakten Eingabeformulierungen

JEPA kann Unsicherheit behandeln, indem es Verteilungen im Embedding-Raum vorhersagt und natürlich mehrere mögliche Ergebnisse berücksichtigt.

I-JEPA (Bilder)

Metas bildbasiertes JEPA lernt durch:

  • Nehmen eines Bildes und Maskieren von Teilen davon
  • Vorhersagen des Embeddings maskierter Bereiche aus sichtbaren Bereichen
  • Vergleichen vorhergesagter vs. tatsächlicher Embeddings

Ergebnisse: Ein 632M-Parameter-Modell, trainiert auf 16 A100-GPUs in unter 72 Stunden, erreichte state-of-the-art Low-Shot-Klassifikation auf ImageNet mit nur 12 beschrifteten Beispielen pro Klasse. Andere Methoden benötigen 2-10x mehr Rechenleistung für schlechtere Ergebnisse.

V-JEPA (Video)

V-JEPA erweitert die Architektur auf Video:

“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” — Yann LeCun

“V-JEPA ist ein Schritt in Richtung eines fundierteren Weltverständnisses, damit Maschinen verallgemeinertes Denken und Planen erreichen können.”

V-JEPA 2 wurde erfolgreich auf Robotik-Planung angewendet und demonstriert, wie JEPA als Weltmodell für reale Entscheidungsfindung dienen kann.

Hauptvorteile

AspektGenerative ModelleJEPA
VorhersagezielRohe Pixel/TokensAbstrakte Embeddings
Irrelevante DetailsMuss alles modellierenKann Rauschen ignorieren
UnsicherheitEinzelne AusgabeMehrere gültige Ergebnisse
EffizienzHohe RechenleistungEffizienter
Semantischer FokusOberflächenmusterTiefere Bedeutung

JEPA vs. Transformer

JEPA ist keine Alternative zu Transformern - viele JEPA-Implementierungen verwenden Transformer-Module. Es ist eine Alternative zur autoregressiven Generation als Lernparadigma, unabhängig von der zugrunde liegenden Architektur.

Die Vision

LeCun positioniert JEPA als Kern seiner Vision zur Erreichung menschenähnlichen Denkens:

  1. Weltmodell: JEPA lernt, wie die Welt funktioniert
  2. Planung: Verwende das Weltmodell, um Aktionskonsequenzen zu simulieren
  3. Denken: Navigiere komplexe Entscheidungsräume

Dies steht im Kontrast zum “Scale up LLMs”-Ansatz, der in der Branche dominiert.

Weiterführende Lektüre