Sora

/ˈsɔːrə/

Also known as: OpenAI Sora, Sora 2, text-to-video

technical beginner

Co je Sora?

Sora je text-to-video generační model OpenAI, schopný vytvářet realistické video z textových popisů. Poprvé představena v únoru 2024 a veřejně vydána v prosinci 2024, Sora představuje to, co někteří nazývají “GPT-1 moment” pro video—bod, kdy AI generování videa začalo skutečně fungovat.

Schopnosti

Generování videa:

  • Až 20 sekund videa
  • Až 1080p rozlišení
  • Širokoúhlé, vertikální nebo čtvercové poměry stran
  • Dynamický pohyb kamery s konzistentním 3D prostorem

Technické funkce:

  • Perzistence objektů (objekty přetrvávají napříč snímky)
  • Simulace fyziky (ačkoliv nedokonalá)
  • Rozšíření videa (dopředu nebo dozadu v čase)
  • Může simulovat interaktivní prostředí jako Minecraft

Evoluce

Původní Sora (únor 2024)

  • Náhled vydání ukazující impresivní dema
  • Až jedna minuta videa v nižší kvalitě
  • Bez audia
  • Omezený veřejný přístup

Sora Turbo (prosinec 2024)

  • Výrazně rychlejší generování
  • Veřejné vydání pro ChatGPT Pro a Plus uživatele
  • Plus uživatelé: 50 videí/měsíc v 480p nebo méně v 720p

Sora 2 (září 2025)

Velké vylepšení zavádějící:

Audio: Nativní synchronizované generování zvuku—největší přídavek.

Lepší fyzika: “Pokud basketbalový hráč mine střelu, odrazí se od koše.” Chyby se nyní zdají být chybami implicitního agenta, který je modelován, ne porušení fyziky.

Ovladatelnost: Následuje složité multi-shot instrukce při zachování konzistence stavu světa.

Rozsah stylů: Exceluje v realistických, filmových a anime stylech.

Cameos: Uživatelé mohou zahrnout svou vlastní podobu do generovaných videí přes krátké ověřovací nahrávání. Přesné vykreslení vzhledu a hlasu.

”Simulátory světa”

OpenAI popisuje generační modely videa jako “simulátory světa”—systémy, které se učí implicitní modely fyziky a chování objektů. To se spojuje s širším výzkumem světových modelů, o kterých Demis Hassabis a jiní tvrdí, že je nutný pro AGI.

Avšak současné generátory videa skutečně nerozumí fyzice—aproximují ji ze vzorů v trénovacích datech. Generovaná videa mohou vypadat realisticky, aniž by byla fyzikálně přesná.

Bezpečnostní opatření

OpenAI implementovala ochrany:

  • Vodoznaky: Viditelné značky na generovaném obsahu
  • C2PA metadata: Strojově čitelné informace o původu
  • Omezení nahrávání: Omezené fotorealistické nahrávání lidí, zvláště nezletilých
  • Obsahové politiky: Prevence generování nepřivolené podoby

Přístup a ceník

  • ChatGPT Pro ($200/měsíc): Nejvyšší kvalita a nejdelší videa
  • ChatGPT Plus ($20/měsíc): 50 videí/měsíc v nižších rozlišeních
  • iOS a Android aplikace: Vydány spolu se Sora 2

Konkurenční prostředí

Sora konkuruje:

  • Runway Gen-3: Profesionální generování videa
  • Pika: Spotřebitelsky orientovaná video AI
  • Google Veo: Snahy Google o generování videa
  • Kling: Video model od Kuaishou

Související čtení

Mentioned In

Video thumbnail

Alex Kantrowitz

Sora represents OpenAI's push beyond text into multimodal generation.