JEPA

/ˈdʒepə/

Also known as: Joint Embedding Predictive Architecture, I-JEPA, V-JEPA

architecture advanced

Co je JEPA?

Joint Embedding Predictive Architecture (JEPA) je Yann LeCunův navrhovaný rámec pro budování více lidských AI systémů. Poprvé nastíněný v jeho paperu z 2022 “A Path Towards Autonomous Machine Intelligence,” JEPA představuje alternativu k autoregresivnímu přístupu používanému LLM.

Klíčový poznatek: Predikujte abstraktní reprezentace, ne surové pixely nebo tokeny. To umožňuje systému ignorovat irelevantní detaily při zaměření na sémantické porozumění.

Jak JEPA funguje

Tradiční generativní modely (jako GPT) predikují příští token nebo pixel přímo. JEPA bere jiný přístup:

  1. Enkódujte části vstupu do abstraktních reprezentací (embeddings)
  2. Predikujte embedding jedné části z jiné části
  3. Učte se porovnáváním predikovaných embeddingů se skutečnými embeddingy

To se děje v “embedding prostoru” místo “pixel/token prostoru”—zásadní rozdíl, který eliminuje potřebu modelovat irelevantní detaily.

Proč ne generativní modely?

LeCun tvrdí, že autoregresivní generativní modely (LLM, difuzní modely) mají fundamentální omezení:

  • Výpočetní plýtvání: Predikce každého pixelu/tokenu, i irelevantních
  • Zvládání nejistoty: Bojují s více platnými budoucnostmi
  • Křehkost: Citlivé na přesné formulace vstupu

JEPA může zvládat nejistotu predikcí distribucí v embedding prostoru, přirozeně přizpůsobující více možných výsledků.

I-JEPA (Obrazy)

Meta’s Image-based JEPA se učí:

  • Vzít obraz a maskovat jeho části
  • Predikovat embedding maskovaných regionů z viditelných regionů
  • Porovnat predikované vs. skutečné embeddingy

Výsledky: 632M parametrový model trénovaný na 16 A100 GPU za méně než 72 hodin dosáhl state-of-the-art low-shot klasifikace na ImageNet s pouze 12 označenými příklady na třídu. Jiné metody trvají 2-10x více výpočtů pro horší výsledky.

V-JEPA (Video)

V-JEPA rozšiřuje architekturu na video:

“V-JEPA is a step toward a more grounded understanding of the world so machines can achieve more generalized reasoning and planning.”

“V-JEPA je krok směrem k ukotvěnějšímu porozumění světu, aby stroje mohly dosáhnout zobecněnějšího uvažování a plánování.” — Yann LeCun

V-JEPA 2 byla úspěšně aplikována na plánování v robotice, demonstrující, jak může JEPA sloužit jako světový model pro rozhodování v reálném světě.

Klíčové výhody

AspektGenerativní modelyJEPA
Cíl predikceSurové pixely/tokenyAbstraktní embeddingy
Irelevantní detailyMusí modelovat všeMůže ignorovat šum
NejistotaJeden výstupVíce platných výsledků
EfektivitaVysoké výpočtyEfektivnější
Sémantické zaměřeníPovrchní vzoryHlubší význam

JEPA vs. Transformery

JEPA není alternativa k transformerům—mnoho JEPA implementací používá transformer moduly. Je to alternativa k autoregresivnímu generování jako učebnímu paradigmatu, bez ohledu na základní architekturu.

Vize

LeCun pozicuje JEPA jako jádro své vize pro dosažení uvažování na lidské úrovni:

  1. Světový model: JEPA se učí, jak svět funguje
  2. Plánování: Použití světového modelu k simulaci důsledků akcí
  3. Uvažování: Navigace v komplexních rozhodovacích prostorech

To kontrastuje s přístupem “škálování LLM”, který dominuje v průmyslu.

Související čtení