JEPA
/ˈdʒepə/
Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA
¿Qué es JEPA?
La Arquitectura Predictiva de Embeddings Conjuntos (JEPA) es el marco propuesto de Yann LeCun para construir sistemas de IA más similares a los humanos. Primero esbozado en su artículo de 2022 “A Path Towards Autonomous Machine Intelligence,” JEPA representa una alternativa al enfoque autoregresivo usado por los LLMs.
La intuición clave: Predecir representaciones abstractas, no píxeles o tokens crudos. Esto permite que el sistema ignore detalles irrelevantes mientras se enfoca en la comprensión semántica.
Cómo Funciona JEPA
Los modelos generativos tradicionales (como GPT) predicen el próximo token o píxel directamente. JEPA toma un enfoque diferente:
- Codificar partes de una entrada en representaciones abstractas (embeddings)
- Predecir el embedding de una parte desde otra parte
- Aprender comparando embeddings predichos con embeddings reales
Esto sucede en “espacio de embeddings” en lugar de “espacio de píxeles/tokens”—una distinción crucial que elimina la necesidad de modelar detalles irrelevantes.
¿Por Qué No Modelos Generativos?
LeCun argumenta que los modelos generativos autoregresivos (LLMs, modelos de difusión) tienen limitaciones fundamentales:
- Desperdicio computacional: Predecir cada píxel/token, incluso los irrelevantes
- Manejo de incertidumbre: Luchan con múltiples futuros válidos
- Fragilidad: Sensibles a formulaciones de entrada exactas
JEPA puede manejar incertidumbre prediciendo distribuciones en espacio de embeddings, acomodando naturalmente múltiples resultados posibles.
I-JEPA (Imágenes)
El JEPA basado en Imágenes de Meta aprende mediante:
- Tomar una imagen y enmascarar partes de ella
- Predecir el embedding de regiones enmascaradas desde regiones visibles
- Comparar embeddings predichos vs. reales
Resultados: Un modelo de 632M parámetros entrenado en 16 GPUs A100 en menos de 72 horas logró clasificación de pocas muestras de vanguardia en ImageNet con solo 12 ejemplos etiquetados por clase. Otros métodos toman 2-10x más cómputo para peores resultados.
V-JEPA (Video)
V-JEPA extiende la arquitectura a video:
“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” “V-JEPA es un paso hacia una comprensión más fundamentada del mundo para que las máquinas puedan lograr razonamiento y planificación más generalizados.” — Yann LeCun
V-JEPA 2 se ha aplicado exitosamente a planificación robótica, demostrando cómo JEPA puede servir como un modelo del mundo para toma de decisiones del mundo real.
Ventajas Clave
| Aspecto | Modelos Generativos | JEPA |
|---|---|---|
| Objetivo de predicción | Píxeles/tokens crudos | Embeddings abstractos |
| Detalles irrelevantes | Debe modelar todo | Puede ignorar ruido |
| Incertidumbre | Salida única | Múltiples resultados válidos |
| Eficiencia | Alto cómputo | Más eficiente |
| Enfoque semántico | Patrones superficiales | Significado más profundo |
JEPA vs. Transformers
JEPA no es una alternativa a transformers—muchas implementaciones JEPA usan módulos transformer. Es una alternativa a generación autoregresiva como paradigma de aprendizaje, independientemente de la arquitectura subyacente.
La Visión
LeCun posiciona JEPA como el núcleo de su visión para lograr razonamiento de nivel humano:
- Modelo del mundo: JEPA aprende cómo funciona el mundo
- Planificación: Usar el modelo del mundo para simular consecuencias de acciones
- Razonamiento: Navegar espacios de decisión complejos
Esto contrasta con el enfoque “escalar LLMs” dominante en la industria.
Lecturas Relacionadas
- Yann LeCun - Científico Jefe de IA en Meta, arquitecto de JEPA
- Modelos del Mundo - Lo que JEPA pretende construir