OpenAI Images 2.0:会思考、能设计的图像生成模型

2026-04-21 OpenAI

openaigptmultimodaldesignproductivitybusiness

为什么 OpenAI 的 Images 2.0 重新定义了生产级视觉内容的标准

OpenAI 于 2026 年 4 月 21 日在 ChatGPT 和 API 中发布了 Images 2.0(内部代号:GPT Image 2)。Sam Altman 用极其直白的话描述了这次飞跃:“This is like going from GPT-3 to GPT-5 all at once.”(这就像一次性从 GPT-3 跃升到 GPT-5。)同一天,Arena AI 的公开偏好排行榜给出了独立验证,该模型曾以代号”duct tape”参与内测:“This model has had the biggest jump on the arena at least since I can remember. It’s over 200 points and it’s far far ahead of any other image model.”(这个模型在竞技场上实现了我记忆中最大幅度的跃升,超过 200 分,远远领先于其他任何图像模型。)

从生成器到协作者的转变: 研究主管 Ki-wan 说得很直接:“This new model is no more like an AI image generator that you just give a prompt and it returns an image. It’s more like an AI that you just interactively talk to and is going to respond using images.”(这个新模型不再是你给它一个提示词、它返回一张图像的 AI 图像生成器。它更像是一个你可以与之交互对话、并用图像来回应的 AI。)演示展示了 ChatGPT 基于一张肖像生成八套带标签的夏季穿搭选项,然后放大选中的款式并呈现多个角度——这正是造型师或艺术总监的工作流,被压缩到一次对话之中。

思考模式把研究和工具调用带入图像生成: 对付费用户而言,Images 2.0 提供了一个思考模式变体,可以搜索网络、综合结果,并将其嵌入输出。在现场演示中,Gabe 让模型查找社交媒体上对”duct tape”测试版的反响,并在一张生成的图像中嵌入一个指向 chatgpt.com 的可用二维码——所有这些都在一次图像生成中完成。这是作为代理任务的图像生成,而非像素流水线。

文字渲染终于被攻克——适用于所有语言: 多语言排版是台上的重头戏。OpenAI 生成了完整的日文海报,平假名和汉字都正确无误,还有印地语食谱卡和中文杂志排版,没有任何错误。正如研究员 Buyan 所说:“Previously our model had a hard time memorizing these characters but now you can just prompt and generate entire pages of text in these languages without errors.”(以前我们的模型很难记住这些字符,但现在你可以直接用提示词生成整页这些语言的文字,而且没有错误。)

多图连贯性开启新格式: 模型现在可以在一次生成中输出多张风格一致、角色统一、叙事推进的不同图像——三页漫画、整期杂志、逐房间的装修方案。Arena AI 的评测员确认:角色身份在多格之间保持一致,“Drake 梗图”和”分心男友”这类提示词效果”完全完美”,而竞争对手则纷纷失败。

仍有短板的地方: Arena AI 的坦诚批评:几何世界理解并不完美(在不同角度间旋转场景会产生细微的不一致),梗图的微妙之处有时失败(分心男友的视线方向出错)。不过在身份保持和照片写实度方面,该模型被评为同类最佳,胜过 Grok Imagine、Nano Banana 2 和 OpenAI 自家的 GPT Image 1.5。

用 AI 构建视觉工作流的团队的 5 个关键要点

4K 加多宽高比输出使其具备生产力就绪——标准 2K 分辨率,宽高比最高支持 3:1 和 1:3,还有实验性的 4K API,能渲染一堆米粒,其中一粒清晰可辨地写着”GPT image 2”。
设计知识被内置其中——研究员反复指出,模型有意识地进行文字布局、排版层级和整页设计。它不只是在渲染;它在做艺术指导。
思考模式 = 网络增强的视觉效果——图像生成现在可以进行研究、获取实时事实,并将可操作的元素(二维码、当前数据)嵌入输出。
即时模式对所有人免费——更快的变体面向所有 ChatGPT 用户;思考模式保留为付费。
Arena AI 的 200 分跃升是真正的市场信号——这是图像竞技场上测得的单一模型最大跃升,并且在每个提示词类别中都可见。

这对 AI 驱动的创意与营销团队意味着什么

Images 2.0 把过去的流水线——提示词 → 生成器 → 文案 → 设计师 → 质检——压缩为单一的对话回合。对于依赖 AI 的营销团队而言,这消除了为打造一个品牌资产而串联三个工具的最后一个理由。对于 TeamDay 的 Design Studio 和 Content Studio 代理而言,这意味着”一个模型从需求简报处理到最终排版”的时代从现在开始——“AI 生成”与”生产就绪”之间的差距刚刚被填平。