Sora

/ˈsɔːrə/

Also known as: OpenAI Sora, Sora 2, text-to-video

technical beginner

¿Qué es Sora?

Sora es el modelo de generación de texto a video de OpenAI, capaz de crear video realista a partir de descripciones de texto. Presentado por primera vez en febrero de 2024 y lanzado públicamente en diciembre de 2024, Sora representa lo que algunos llaman el “momento GPT-1” para video—el punto donde la generación de video de IA comenzó a funcionar realmente.

Capacidades

Generación de Video:

  • Hasta 20 segundos de video
  • Hasta resolución 1080p
  • Relaciones de aspecto panorámicas, verticales o cuadradas
  • Movimiento de cámara dinámico con espacio 3D consistente

Características Técnicas:

  • Permanencia de objetos (los objetos persisten a través de fotogramas)
  • Simulación de física (aunque imperfecta)
  • Extensión de video (hacia adelante o atrás en el tiempo)
  • Puede simular entornos interactivos como Minecraft

Evolución

Sora Original (Febrero 2024)

  • Lanzamiento de vista previa mostrando demos impresionantes
  • Hasta un minuto de video a menor calidad
  • Sin audio
  • Acceso público limitado

Sora Turbo (Diciembre 2024)

  • Generación significativamente más rápida
  • Lanzamiento público a usuarios de ChatGPT Pro y Plus
  • Usuarios Plus: 50 videos/mes a 480p o menos a 720p

Sora 2 (Septiembre 2025)

Actualización mayor introduciendo:

Audio: Generación de sonido sincronizado nativo—la mayor adición.

Mejor Física: “If a basketball player misses a shot, it will rebound off the backboard.” / “Si un jugador de baloncesto falla un tiro, rebotará en el tablero.” Los errores ahora parecen ser errores del agente implícito siendo modelado, no violaciones de física.

Controlabilidad: Sigue instrucciones intrincadas de múltiples tomas mientras mantiene la consistencia del estado del mundo.

Rango de Estilo: Sobresale en estilos realistas, cinemáticos y anime.

Cameos: Los usuarios pueden incluir su propia semejanza en videos generados mediante una grabación corta de verificación. Renderizado preciso de apariencia y voz.

”Simuladores del Mundo”

OpenAI describe los modelos de generación de video como “simuladores del mundo”—sistemas que aprenden modelos implícitos de física y comportamiento de objetos. Esto se conecta con la investigación más amplia en modelos del mundo que Demis Hassabis y otros argumentan es necesaria para AGI.

Sin embargo, los generadores de video actuales no entienden verdaderamente la física—la aproximan de patrones en datos de entrenamiento. Los videos generados pueden verse realistas sin ser físicamente precisos.

Medidas de Seguridad

OpenAI ha implementado salvaguardas:

  • Marcas de agua: Marcadores visibles en contenido generado
  • Metadatos C2PA: Información de procedencia legible por máquina
  • Restricciones de carga: Cargas fotorealistas limitadas de personas, especialmente menores
  • Políticas de contenido: Prevenir generación de semejanza no consensuada

Acceso y Precios

  • ChatGPT Pro ($200/mes): Máxima calidad y videos más largos
  • ChatGPT Plus ($20/mes): 50 videos/mes a resoluciones más bajas
  • Aplicaciones iOS y Android: Lanzadas junto con Sora 2

Panorama Competitivo

Sora compite con:

  • Runway Gen-3: Generación de video profesional
  • Pika: Video de IA enfocado en consumidor
  • Google Veo: Esfuerzos de generación de video de Google
  • Kling: Modelo de video de Kuaishou

Lecturas Relacionadas

Mentioned In

Video thumbnail

Alex Kantrowitz

Sora represents OpenAI's push beyond text into multimodal generation.