JEPA

/ˈdʒepə/

Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA

architecture advanced

¿Qué es JEPA?

La Arquitectura Predictiva de Embeddings Conjuntos (JEPA) es el marco propuesto de Yann LeCun para construir sistemas de IA más similares a los humanos. Primero esbozado en su artículo de 2022 “A Path Towards Autonomous Machine Intelligence,” JEPA representa una alternativa al enfoque autoregresivo usado por los LLMs.

La intuición clave: Predecir representaciones abstractas, no píxeles o tokens crudos. Esto permite que el sistema ignore detalles irrelevantes mientras se enfoca en la comprensión semántica.

Cómo Funciona JEPA

Los modelos generativos tradicionales (como GPT) predicen el próximo token o píxel directamente. JEPA toma un enfoque diferente:

  1. Codificar partes de una entrada en representaciones abstractas (embeddings)
  2. Predecir el embedding de una parte desde otra parte
  3. Aprender comparando embeddings predichos con embeddings reales

Esto sucede en “espacio de embeddings” en lugar de “espacio de píxeles/tokens”—una distinción crucial que elimina la necesidad de modelar detalles irrelevantes.

¿Por Qué No Modelos Generativos?

LeCun argumenta que los modelos generativos autoregresivos (LLMs, modelos de difusión) tienen limitaciones fundamentales:

  • Desperdicio computacional: Predecir cada píxel/token, incluso los irrelevantes
  • Manejo de incertidumbre: Luchan con múltiples futuros válidos
  • Fragilidad: Sensibles a formulaciones de entrada exactas

JEPA puede manejar incertidumbre prediciendo distribuciones en espacio de embeddings, acomodando naturalmente múltiples resultados posibles.

I-JEPA (Imágenes)

El JEPA basado en Imágenes de Meta aprende mediante:

  • Tomar una imagen y enmascarar partes de ella
  • Predecir el embedding de regiones enmascaradas desde regiones visibles
  • Comparar embeddings predichos vs. reales

Resultados: Un modelo de 632M parámetros entrenado en 16 GPUs A100 en menos de 72 horas logró clasificación de pocas muestras de vanguardia en ImageNet con solo 12 ejemplos etiquetados por clase. Otros métodos toman 2-10x más cómputo para peores resultados.

V-JEPA (Video)

V-JEPA extiende la arquitectura a video:

“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.” “V-JEPA es un paso hacia una comprensión más fundamentada del mundo para que las máquinas puedan lograr razonamiento y planificación más generalizados.” — Yann LeCun

V-JEPA 2 se ha aplicado exitosamente a planificación robótica, demostrando cómo JEPA puede servir como un modelo del mundo para toma de decisiones del mundo real.

Ventajas Clave

AspectoModelos GenerativosJEPA
Objetivo de predicciónPíxeles/tokens crudosEmbeddings abstractos
Detalles irrelevantesDebe modelar todoPuede ignorar ruido
IncertidumbreSalida únicaMúltiples resultados válidos
EficienciaAlto cómputoMás eficiente
Enfoque semánticoPatrones superficialesSignificado más profundo

JEPA vs. Transformers

JEPA no es una alternativa a transformers—muchas implementaciones JEPA usan módulos transformer. Es una alternativa a generación autoregresiva como paradigma de aprendizaje, independientemente de la arquitectura subyacente.

La Visión

LeCun posiciona JEPA como el núcleo de su visión para lograr razonamiento de nivel humano:

  1. Modelo del mundo: JEPA aprende cómo funciona el mundo
  2. Planificación: Usar el modelo del mundo para simular consecuencias de acciones
  3. Razonamiento: Navegar espacios de decisión complejos

Esto contrasta con el enfoque “escalar LLMs” dominante en la industria.

Lecturas Relacionadas