JEPA
/ˈdʒepə/
Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA
Qu’est-ce que JEPA ?
L’architecture de prédiction par intégration jointe (Joint Embedding Predictive Architecture ou JEPA) est le cadre proposé par Yann LeCun pour construire des systèmes d’IA plus proches de l’humain. D’abord exposé dans son article de 2022 “A Path Towards Autonomous Machine Intelligence”, JEPA représente une alternative à l’approche autoregressive utilisée par les LLM.
L’intuition clé : Prédire des représentations abstraites, pas des pixels ou tokens bruts. Cela permet au système d’ignorer les détails non pertinents tout en se concentrant sur la compréhension sémantique.
Comment fonctionne JEPA
Les modèles génératifs traditionnels (comme GPT) prédisent directement le prochain token ou pixel. JEPA adopte une approche différente :
- Encoder des parties d’une entrée en représentations abstraites (embeddings)
- Prédire l’embedding d’une partie à partir d’une autre partie
- Apprendre en comparant les embeddings prédits aux embeddings réels
Cela se produit dans “l’espace d’embedding” plutôt que “l’espace pixel/token”—une distinction cruciale qui élimine le besoin de modéliser des détails non pertinents.
Pourquoi pas les modèles génératifs ?
LeCun soutient que les modèles génératifs autorégressifs (LLM, modèles de diffusion) ont des limitations fondamentales :
- Gaspillage computationnel : Prédire chaque pixel/token, même ceux non pertinents
- Gestion de l’incertitude : Difficulté avec de multiples futurs valides
- Fragilité : Sensible aux formulations exactes d’entrée
JEPA peut gérer l’incertitude en prédisant des distributions dans l’espace d’embedding, accommodant naturellement de multiples résultats possibles.
I-JEPA (Images)
Le JEPA basé sur les images de Meta apprend en :
- Prenant une image et masquant des parties
- Prédisant l’embedding des régions masquées à partir des régions visibles
- Comparant les embeddings prédits vs réels
Résultats : Un modèle de 632M paramètres entraîné sur 16 A100 GPU en moins de 72 heures a atteint une classification low-shot de pointe sur ImageNet avec seulement 12 exemples étiquetés par classe. D’autres méthodes prennent 2 à 10x plus de calcul pour de pires résultats.
V-JEPA (Vidéo)
V-JEPA étend l’architecture à la vidéo :
“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” — Yann LeCun
“V-JEPA est un pas vers une compréhension plus ancrée du monde pour que les machines puissent atteindre un raisonnement et une planification plus généralisés.”
V-JEPA 2 a été appliqué avec succès à la planification robotique, démontrant comment JEPA peut servir de modèle de monde pour la prise de décision dans le monde réel.
Avantages clés
| Aspect | Modèles génératifs | JEPA |
|---|---|---|
| Cible de prédiction | Pixels/tokens bruts | Embeddings abstraits |
| Détails non pertinents | Doit tout modéliser | Peut ignorer le bruit |
| Incertitude | Sortie unique | Multiples résultats valides |
| Efficacité | Calcul élevé | Plus efficace |
| Focus sémantique | Motifs de surface | Signification plus profonde |
JEPA vs. Transformers
JEPA n’est pas une alternative aux transformers—de nombreuses implémentations JEPA utilisent des modules transformer. C’est une alternative à la génération autoregressive comme paradigme d’apprentissage, indépendamment de l’architecture sous-jacente.
La vision
LeCun positionne JEPA comme le cœur de sa vision pour atteindre le raisonnement au niveau humain :
- Modèle de monde : JEPA apprend comment fonctionne le monde
- Planification : Utiliser le modèle de monde pour simuler les conséquences des actions
- Raisonnement : Naviguer dans des espaces de décision complexes
Cela contraste avec l’approche “augmenter l’échelle des LLM” dominante dans l’industrie.
Lectures connexes
- Yann LeCun - Scientifique en chef de l’IA chez Meta, architecte de JEPA
- World Models - Ce que JEPA vise à construire