Sora
/ˈsɔːrə/
Also known as: OpenAI Sora, Sora 2, text-to-video
¿Qué es Sora?
Sora es el modelo de generación de texto a video de OpenAI, capaz de crear video realista a partir de descripciones de texto. Presentado por primera vez en febrero de 2024 y lanzado públicamente en diciembre de 2024, Sora representa lo que algunos llaman el “momento GPT-1” para video—el punto donde la generación de video de IA comenzó a funcionar realmente.
Capacidades
Generación de Video:
- Hasta 20 segundos de video
- Hasta resolución 1080p
- Relaciones de aspecto panorámicas, verticales o cuadradas
- Movimiento de cámara dinámico con espacio 3D consistente
Características Técnicas:
- Permanencia de objetos (los objetos persisten a través de fotogramas)
- Simulación de física (aunque imperfecta)
- Extensión de video (hacia adelante o atrás en el tiempo)
- Puede simular entornos interactivos como Minecraft
Evolución
Sora Original (Febrero 2024)
- Lanzamiento de vista previa mostrando demos impresionantes
- Hasta un minuto de video a menor calidad
- Sin audio
- Acceso público limitado
Sora Turbo (Diciembre 2024)
- Generación significativamente más rápida
- Lanzamiento público a usuarios de ChatGPT Pro y Plus
- Usuarios Plus: 50 videos/mes a 480p o menos a 720p
Sora 2 (Septiembre 2025)
Actualización mayor introduciendo:
Audio: Generación de sonido sincronizado nativo—la mayor adición.
Mejor Física: “If a basketball player misses a shot, it will rebound off the backboard.” / “Si un jugador de baloncesto falla un tiro, rebotará en el tablero.” Los errores ahora parecen ser errores del agente implícito siendo modelado, no violaciones de física.
Controlabilidad: Sigue instrucciones intrincadas de múltiples tomas mientras mantiene la consistencia del estado del mundo.
Rango de Estilo: Sobresale en estilos realistas, cinemáticos y anime.
Cameos: Los usuarios pueden incluir su propia semejanza en videos generados mediante una grabación corta de verificación. Renderizado preciso de apariencia y voz.
”Simuladores del Mundo”
OpenAI describe los modelos de generación de video como “simuladores del mundo”—sistemas que aprenden modelos implícitos de física y comportamiento de objetos. Esto se conecta con la investigación más amplia en modelos del mundo que Demis Hassabis y otros argumentan es necesaria para AGI.
Sin embargo, los generadores de video actuales no entienden verdaderamente la física—la aproximan de patrones en datos de entrenamiento. Los videos generados pueden verse realistas sin ser físicamente precisos.
Medidas de Seguridad
OpenAI ha implementado salvaguardas:
- Marcas de agua: Marcadores visibles en contenido generado
- Metadatos C2PA: Información de procedencia legible por máquina
- Restricciones de carga: Cargas fotorealistas limitadas de personas, especialmente menores
- Políticas de contenido: Prevenir generación de semejanza no consensuada
Acceso y Precios
- ChatGPT Pro ($200/mes): Máxima calidad y videos más largos
- ChatGPT Plus ($20/mes): 50 videos/mes a resoluciones más bajas
- Aplicaciones iOS y Android: Lanzadas junto con Sora 2
Panorama Competitivo
Sora compite con:
- Runway Gen-3: Generación de video profesional
- Pika: Video de IA enfocado en consumidor
- Google Veo: Esfuerzos de generación de video de Google
- Kling: Modelo de video de Kuaishou
Lecturas Relacionadas
- Modelos del Mundo - El concepto que Sora encarna
- Sam Altman - CEO de OpenAI supervisando el desarrollo de Sora