2026 年 4 月 21 日深夜,OpenAI CEO 开了一场不到半小时的线上直播,发布了 ChatGPT Images 2.0。这个版本背后的模型叫 GPT-Image-2,不是 DALL-E 4,不是 DALL-E 3 的升级,是一个从零重建的东西。
直播里有一句话让我印象比较深:「这次的飞跃,相当于从 GPT-3 跳到 GPT-5。」有点夸张,但在图像生成领域,这几年变化确实没有语言模型那么快——直到这次。
一次真正的架构换代
先说一件可能被忽略的事:2026 年 5 月 12 日,DALL-E 2 和 DALL-E 3 将正式关停。
这不是普通的版本迭代,而是 OpenAI 主动放弃了扩散模型这条技术路线。GPT-Image-2 采用的是自回归架构——同一套思路打造了 GPT-4、GPT-5 的那种架构。
通俗地说,之前的图像生成模型是「噪点去噪」的过程,从一片随机噪声里慢慢还原出图像。而 GPT-Image-2 更像在「写文章」,一个 token 接一个 token 地推理出每一块像素该是什么。
这个变化带来了一个此前很难解决的问题的突破:文字渲染。
中文终于不乱码了
在 GPT-Image-2 之前,让 AI 在图片里写中文基本是个玄学操作——有时候像个字,有时候是奇怪的符号,有时候完全认不出来。
GPT-Image-2 的文字渲染准确率接近 99%,支持中文(简繁体)、日语、韩语、印地语、孟加拉语等非拉丁语系。
想让图里出现准确的文字,提示词格式建议这样写:
A poster with neon sign text reading "深夜代码"
用引号把文字内容包起来,模型识别会更准确。
这对做社交媒体配图、产品海报的人来说意义很大。一直以来这都是 AI 生图工具的硬伤,现在基本补上了。
「会思考」的图像 AI
这次最大的亮点不只是文字渲染,而是引入了「思考模式(Thinking Mode)」。
开启思考模式之后,模型生成图片之前会先做推理:联网搜索相关信息,分析图像结构,然后再生成。对话里你可以看到它「想」的过程。
举个例子:你让它画一张「2026 年 4 月的某款手机评测卡片」,它不是凭空想象,而是先联网查这款手机的真实外观和参数,然后再生成。
两种模式的区别:
| 模式 | 生成速度 | 适用场景 |
|---|---|---|
| Instant(即时) | 几秒内 | 简单单张图、日常创作 |
| Thinking(思考) | 最长 2 分钟 | 需要参考真实信息、多图连贯、复杂构图 |
Thinking 模式是付费用户专属功能(Plus/Pro/Business/Enterprise),免费用户只能用 Instant 模式。
一次出 8 张,角色不变形
对内容创作者来说,另一个实用升级是多图连贯生成。
一条提示词,可以一次输出最多 8 张图,而且同一个角色的脸、服装、画风在 8 张图里保持一致。
做漫画、做社交媒体系列内容、做产品展示图的人,之前都要反复调整提示词、反复手动修改,才能让角色「不换脸」。现在这个问题理论上解决了——实测效果因场景不同会有差异,但整体一致性比之前好很多。
竞品对比:领先多少?
独立评测机构 Arena.ai 发布了最新排行榜:GPT-Image-2 登顶所有 Image Arena 排行榜第一,在文生图领域以 242 分的优势领先第二名(谷歌 Nano-banana-2),Elo 得分 1512。
主流竞品对比:
| 模型 | 文字准确率 | 最大分辨率 | Elo 评分 |
|---|---|---|---|
| GPT-Image-2 | ~99% | 3840px | 1512 |
| Midjourney V7 | 改进中 | 2048px | ~1270 |
| Flux 2 Pro | 较好 | 2048px | ~1265 |
| Google Imagen 4 | 较好 | 2048px | ~1240 |
需要说明的是,Arena 排名衡量的是综合偏好,Midjourney 在美学风格和艺术感控制上依然有自己的受众,Flux 在摄影写实风格上也有优势,GPT-Image-2 并不是在所有细分场景都是最优解。
定价和使用门槛
ChatGPT 用户:直接在 chat.openai.com 使用,模型自动切换为 GPT-Image-2,无需额外设置。Plus 及以上用户可使用 Thinking 模式。
开发者 API:单张图片成本(参考):
| 质量档 | 1024×1024 | 备注 |
|---|---|---|
| 低质量 | $0.006 | 草稿/批量测试 |
| 中质量 | $0.053 | 日常内容生产 |
| 高质量 | $0.211 | 商业发布/印刷级 |
注意:调用 API 需要先完成 Organization Verification(组织认证),个人开发者如果还没完成认证,目前无法直接调用。Batch API 享有五折优惠,批量生产场景成本可以降一半。
对普通人意味着什么
如果你是设计师或者运营,GPT-Image-2 最直接的价値是:终于可以把它当成一个可信赖的生产工具,而不只是灵感参考。文字渲染准确、多图一致性高、支持局部编辑,做活动海报、产品图、公众号封面的效率会有明显提升。
如果你是开发者,自回归架构意味着图像生成的能力上限会和语言模型同步提升,后续迭代速度预计会比扩散模型时代快很多。
如果你只是普通用户,目前免费账号可以用 Instant 模式生图,想要联网思考功能需要升级 Plus。
还有哪些不足
没有完美的工具,GPT-Image-2 目前已知的局限:
- 复杂物理建模(液体流动、烟雾动态)效果仍然不自然
- Thinking 模式下复杂提示词最长需等待约 2 分钟
- 多轮迭代编辑存在质量递减问题(改了几次之后图像质量会下降)
- 高质量档每张 $0.211,对个人创作者来说成本不低
小结
GPT-Image-2 最値得关注的不是某个单一功能,而是路线变了。
扩散模型走了五六年,从 DALL-E 到 Midjourney,大家都在同一条路上优化。自回归架构换道,意味着图像生成以后和语言模型共享同一套技术红利:推理能力提升、上下文更长、工具调用更顺——这些以后都会传导过来。
中文写对这件事,可能看起来很小,但它背后是整套架构逻辑的重建。这不是升了个版本。
如果你想了解 AI 图像生成的上一个里程碑节点,可以回看 GPT-4o 图像生成全面开放:普通人用文字造图的时代真的来了,对比着看变化会更清晰。想把 AI 工具真正用到日常工作里,可以参考这篇 AI实战应用指南(2026版):普通人也能用好的10个场景,覆盖了图像生成在内的多个实用场景。




发表回复