Sora

/ˈsɔːrə/

Also known as: OpenAI Sora, Sora 2, text-to-video

technical beginner

什么是 Sora?

Sora 是 OpenAI 的文本到视频生成模型,能够从文本描述创建逼真的视频。于 2024 年 2 月首次预览并于 2024 年 12 月公开发布,Sora 代表了一些人所说的视频的”GPT-1 时刻”——AI 视频生成开始真正起作用的时候。

能力

视频生成

  • 长达 20 秒的视频
  • 最高 1080p 分辨率
  • 宽屏、垂直或正方形宽高比
  • 具有一致 3D 空间的动态相机运动

技术特性

  • 对象持久性(对象在帧之间持续存在)
  • 物理模拟(虽然不完美)
  • 视频扩展(在时间上向前或向后)
  • 可以模拟像 Minecraft 这样的交互式环境

演变

原始 Sora(2024 年 2 月)

  • 预览版本显示令人印象深刻的演示
  • 长达一分钟的较低质量视频
  • 没有音频
  • 有限的公共访问

Sora Turbo(2024 年 12 月)

  • 生成速度显著加快
  • 向 ChatGPT Pro 和 Plus 用户公开发布
  • Plus 用户:每月 50 个 480p 视频或更少的 720p 视频

Sora 2(2025 年 9 月)

主要升级引入:

音频:原生同步声音生成——最大的新增功能。

更好的物理:“如果篮球运动员投篮未中,它将从篮板上反弹。“错误现在似乎是被建模的隐含代理的错误,而不是物理违规。

可控性:遵循复杂的多镜头指令,同时保持世界状态一致性。

风格范围:擅长逼真、电影和动漫风格。

Cameos:用户可以通过简短的验证录音在生成的视频中包含自己的肖像。准确的外观和语音渲染。

“世界模拟器”

OpenAI 将视频生成模型描述为”世界模拟器”——学习物理和对象行为隐式模型的系统。这与 Demis Hassabis 和其他人认为 AGI 所必需的更广泛的世界模型研究相关联。

然而,当前的视频生成器并不真正理解物理——它们从训练数据的模式中近似它。生成的视频可能看起来逼真但物理上不准确。

安全措施

OpenAI 已实施保护措施:

  • 水印:生成内容上的可见标记
  • C2PA 元数据:机器可读的来源信息
  • 上传限制:限制人物的逼真上传,尤其是未成年人
  • 内容政策:防止未经同意的肖像生成

访问和定价

  • ChatGPT Pro(每月 200 美元):最高质量和最长的视频
  • ChatGPT Plus(每月 20 美元):每月 50 个较低分辨率的视频
  • iOS 和 Android 应用:与 Sora 2 一起发布

竞争格局

Sora 与以下竞争:

  • Runway Gen-3:专业视频生成
  • Pika:面向消费者的视频 AI
  • Google Veo:Google 的视频生成努力
  • Kling:快手的视频模型

相关阅读

Mentioned In

Video thumbnail

Alex Kantrowitz

Sora represents OpenAI's push beyond text into multimodal generation.