JEPA
/ˈdʒepə/
Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA
Was ist JEPA?
Joint Embedding Predictive Architecture (JEPA) ist Yann LeCuns vorgeschlagenes Framework zum Aufbau menschenähnlicherer KI-Systeme. Erstmals skizziert in seinem Paper 2022 “A Path Towards Autonomous Machine Intelligence”, repräsentiert JEPA eine Alternative zum autoregressiven Ansatz, der von LLMs verwendet wird.
Die Schlüsseleinsicht: Sagen Sie abstrakte Repräsentationen voraus, nicht rohe Pixel oder Tokens. Dies ermöglicht dem System, irrelevante Details zu ignorieren und sich auf semantisches Verständnis zu konzentrieren.
Wie JEPA funktioniert
Traditionelle generative Modelle (wie GPT) sagen das nächste Token oder Pixel direkt voraus. JEPA verfolgt einen anderen Ansatz:
- Kodieren von Teilen einer Eingabe in abstrakte Repräsentationen (Embeddings)
- Vorhersagen des Embeddings eines Teils aus einem anderen Teil
- Lernen durch Vergleich vorhergesagter Embeddings mit tatsächlichen Embeddings
Dies geschieht im “Embedding-Raum” statt im “Pixel/Token-Raum” - eine entscheidende Unterscheidung, die die Notwendigkeit eliminiert, irrelevante Details zu modellieren.
Warum nicht generative Modelle?
LeCun argumentiert, dass autoregressive generative Modelle (LLMs, Diffusionsmodelle) fundamentale Einschränkungen haben:
- Rechenverschwendung: Vorhersage jedes Pixels/Tokens, auch irrelevanter
- Unsicherheitsbehandlung: Kämpfen mit mehreren gültigen Zukünften
- Brüchigkeit: Empfindlich gegenüber exakten Eingabeformulierungen
JEPA kann Unsicherheit behandeln, indem es Verteilungen im Embedding-Raum vorhersagt und natürlich mehrere mögliche Ergebnisse berücksichtigt.
I-JEPA (Bilder)
Metas bildbasiertes JEPA lernt durch:
- Nehmen eines Bildes und Maskieren von Teilen davon
- Vorhersagen des Embeddings maskierter Bereiche aus sichtbaren Bereichen
- Vergleichen vorhergesagter vs. tatsächlicher Embeddings
Ergebnisse: Ein 632M-Parameter-Modell, trainiert auf 16 A100-GPUs in unter 72 Stunden, erreichte state-of-the-art Low-Shot-Klassifikation auf ImageNet mit nur 12 beschrifteten Beispielen pro Klasse. Andere Methoden benötigen 2-10x mehr Rechenleistung für schlechtere Ergebnisse.
V-JEPA (Video)
V-JEPA erweitert die Architektur auf Video:
“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” — Yann LeCun
“V-JEPA ist ein Schritt in Richtung eines fundierteren Weltverständnisses, damit Maschinen verallgemeinertes Denken und Planen erreichen können.”
V-JEPA 2 wurde erfolgreich auf Robotik-Planung angewendet und demonstriert, wie JEPA als Weltmodell für reale Entscheidungsfindung dienen kann.
Hauptvorteile
| Aspekt | Generative Modelle | JEPA |
|---|---|---|
| Vorhersageziel | Rohe Pixel/Tokens | Abstrakte Embeddings |
| Irrelevante Details | Muss alles modellieren | Kann Rauschen ignorieren |
| Unsicherheit | Einzelne Ausgabe | Mehrere gültige Ergebnisse |
| Effizienz | Hohe Rechenleistung | Effizienter |
| Semantischer Fokus | Oberflächenmuster | Tiefere Bedeutung |
JEPA vs. Transformer
JEPA ist keine Alternative zu Transformern - viele JEPA-Implementierungen verwenden Transformer-Module. Es ist eine Alternative zur autoregressiven Generation als Lernparadigma, unabhängig von der zugrunde liegenden Architektur.
Die Vision
LeCun positioniert JEPA als Kern seiner Vision zur Erreichung menschenähnlichen Denkens:
- Weltmodell: JEPA lernt, wie die Welt funktioniert
- Planung: Verwende das Weltmodell, um Aktionskonsequenzen zu simulieren
- Denken: Navigiere komplexe Entscheidungsräume
Dies steht im Kontrast zum “Scale up LLMs”-Ansatz, der in der Branche dominiert.
Weiterführende Lektüre
- Yann LeCun - Chief AI Scientist bei Meta, JEPA-Architekt
- World Models - Was JEPA aufbauen will