Sora
/ˈsɔːrə/
Also known as: OpenAI Sora, Sora 2, text-to-video
technical beginner
什么是 Sora?
Sora 是 OpenAI 的文本到视频生成模型,能够从文本描述创建逼真的视频。于 2024 年 2 月首次预览并于 2024 年 12 月公开发布,Sora 代表了一些人所说的视频的”GPT-1 时刻”——AI 视频生成开始真正起作用的时候。
能力
视频生成:
- 长达 20 秒的视频
- 最高 1080p 分辨率
- 宽屏、垂直或正方形宽高比
- 具有一致 3D 空间的动态相机运动
技术特性:
- 对象持久性(对象在帧之间持续存在)
- 物理模拟(虽然不完美)
- 视频扩展(在时间上向前或向后)
- 可以模拟像 Minecraft 这样的交互式环境
演变
原始 Sora(2024 年 2 月)
- 预览版本显示令人印象深刻的演示
- 长达一分钟的较低质量视频
- 没有音频
- 有限的公共访问
Sora Turbo(2024 年 12 月)
- 生成速度显著加快
- 向 ChatGPT Pro 和 Plus 用户公开发布
- Plus 用户:每月 50 个 480p 视频或更少的 720p 视频
Sora 2(2025 年 9 月)
主要升级引入:
音频:原生同步声音生成——最大的新增功能。
更好的物理:“如果篮球运动员投篮未中,它将从篮板上反弹。“错误现在似乎是被建模的隐含代理的错误,而不是物理违规。
可控性:遵循复杂的多镜头指令,同时保持世界状态一致性。
风格范围:擅长逼真、电影和动漫风格。
Cameos:用户可以通过简短的验证录音在生成的视频中包含自己的肖像。准确的外观和语音渲染。
“世界模拟器”
OpenAI 将视频生成模型描述为”世界模拟器”——学习物理和对象行为隐式模型的系统。这与 Demis Hassabis 和其他人认为 AGI 所必需的更广泛的世界模型研究相关联。
然而,当前的视频生成器并不真正理解物理——它们从训练数据的模式中近似它。生成的视频可能看起来逼真但物理上不准确。
安全措施
OpenAI 已实施保护措施:
- 水印:生成内容上的可见标记
- C2PA 元数据:机器可读的来源信息
- 上传限制:限制人物的逼真上传,尤其是未成年人
- 内容政策:防止未经同意的肖像生成
访问和定价
- ChatGPT Pro(每月 200 美元):最高质量和最长的视频
- ChatGPT Plus(每月 20 美元):每月 50 个较低分辨率的视频
- iOS 和 Android 应用:与 Sora 2 一起发布
竞争格局
Sora 与以下竞争:
- Runway Gen-3:专业视频生成
- Pika:面向消费者的视频 AI
- Google Veo:Google 的视频生成努力
- Kling:快手的视频模型
相关阅读
- 世界模型 - Sora 体现的概念
- Sam Altman - 监督 Sora 开发的 OpenAI CEO