ChatGPT Images 2.0 上线：会思考的图像 AI，终于把中文写对了

2026 年 4 月 21 日深夜，OpenAI CEO 开了一场不到半小时的线上直播，发布了 ChatGPT Images 2.0。这个版本背后的模型叫 GPT-Image-2，不是 DALL-E 4，不是 DALL-E 3 的升级，是一个从零重建的东西。

直播里有一句话让我印象比较深：「这次的飞跃，相当于从 GPT-3 跳到 GPT-5。」有点夸张，但在图像生成领域，这几年变化确实没有语言模型那么快——直到这次。

一次真正的架构换代

先说一件可能被忽略的事：2026 年 5 月 12 日，DALL-E 2 和 DALL-E 3 将正式关停。

这不是普通的版本迭代，而是 OpenAI 主动放弃了扩散模型这条技术路线。GPT-Image-2 采用的是自回归架构——同一套思路打造了 GPT-4、GPT-5 的那种架构。

通俗地说，之前的图像生成模型是「噪点去噪」的过程，从一片随机噪声里慢慢还原出图像。而 GPT-Image-2 更像在「写文章」，一个 token 接一个 token 地推理出每一块像素该是什么。

这个变化带来了一个此前很难解决的问题的突破：文字渲染。

中文终于不乱码了

在 GPT-Image-2 之前，让 AI 在图片里写中文基本是个玄学操作——有时候像个字，有时候是奇怪的符号，有时候完全认不出来。

GPT-Image-2 的文字渲染准确率接近 99%，支持中文（简繁体）、日语、韩语、印地语、孟加拉语等非拉丁语系。

想让图里出现准确的文字，提示词格式建议这样写：

A poster with neon sign text reading "深夜代码"

用引号把文字内容包起来，模型识别会更准确。

这对做社交媒体配图、产品海报的人来说意义很大。一直以来这都是 AI 生图工具的硬伤，现在基本补上了。

「会思考」的图像 AI

这次最大的亮点不只是文字渲染，而是引入了「思考模式（Thinking Mode）」。

开启思考模式之后，模型生成图片之前会先做推理：联网搜索相关信息，分析图像结构，然后再生成。对话里你可以看到它「想」的过程。

举个例子：你让它画一张「2026 年 4 月的某款手机评测卡片」，它不是凭空想象，而是先联网查这款手机的真实外观和参数，然后再生成。

两种模式的区别：

模式	生成速度	适用场景
Instant（即时）	几秒内	简单单张图、日常创作
Thinking（思考）	最长 2 分钟	需要参考真实信息、多图连贯、复杂构图

Thinking 模式是付费用户专属功能（Plus/Pro/Business/Enterprise），免费用户只能用 Instant 模式。

一次出 8 张，角色不变形

对内容创作者来说，另一个实用升级是多图连贯生成。

一条提示词，可以一次输出最多 8 张图，而且同一个角色的脸、服装、画风在 8 张图里保持一致。

做漫画、做社交媒体系列内容、做产品展示图的人，之前都要反复调整提示词、反复手动修改，才能让角色「不换脸」。现在这个问题理论上解决了——实测效果因场景不同会有差异，但整体一致性比之前好很多。

竞品对比：领先多少？

独立评测机构 Arena.ai 发布了最新排行榜：GPT-Image-2 登顶所有 Image Arena 排行榜第一，在文生图领域以 242 分的优势领先第二名（谷歌 Nano-banana-2），Elo 得分 1512。

主流竞品对比：

模型	文字准确率	最大分辨率	Elo 评分
GPT-Image-2	~99%	3840px	1512
Midjourney V7	改进中	2048px	~1270
Flux 2 Pro	较好	2048px	~1265
Google Imagen 4	较好	2048px	~1240

需要说明的是，Arena 排名衡量的是综合偏好，Midjourney 在美学风格和艺术感控制上依然有自己的受众，Flux 在摄影写实风格上也有优势，GPT-Image-2 并不是在所有细分场景都是最优解。

定价和使用门槛

ChatGPT 用户：直接在 chat.openai.com 使用，模型自动切换为 GPT-Image-2，无需额外设置。Plus 及以上用户可使用 Thinking 模式。

开发者 API：单张图片成本（参考）：

质量档	1024×1024	备注
低质量	$0.006	草稿/批量测试
中质量	$0.053	日常内容生产
高质量	$0.211	商业发布/印刷级

注意：调用 API 需要先完成 Organization Verification（组织认证），个人开发者如果还没完成认证，目前无法直接调用。Batch API 享有五折优惠，批量生产场景成本可以降一半。

对普通人意味着什么

如果你是设计师或者运营，GPT-Image-2 最直接的价値是：终于可以把它当成一个可信赖的生产工具，而不只是灵感参考。文字渲染准确、多图一致性高、支持局部编辑，做活动海报、产品图、公众号封面的效率会有明显提升。

如果你是开发者，自回归架构意味着图像生成的能力上限会和语言模型同步提升，后续迭代速度预计会比扩散模型时代快很多。

如果你只是普通用户，目前免费账号可以用 Instant 模式生图，想要联网思考功能需要升级 Plus。

还有哪些不足

没有完美的工具，GPT-Image-2 目前已知的局限：

复杂物理建模（液体流动、烟雾动态）效果仍然不自然
Thinking 模式下复杂提示词最长需等待约 2 分钟
多轮迭代编辑存在质量递减问题（改了几次之后图像质量会下降）
高质量档每张 $0.211，对个人创作者来说成本不低

小结

GPT-Image-2 最値得关注的不是某个单一功能，而是路线变了。

扩散模型走了五六年，从 DALL-E 到 Midjourney，大家都在同一条路上优化。自回归架构换道，意味着图像生成以后和语言模型共享同一套技术红利：推理能力提升、上下文更长、工具调用更顺——这些以后都会传导过来。

中文写对这件事，可能看起来很小，但它背后是整套架构逻辑的重建。这不是升了个版本。

如果你想了解 AI 图像生成的上一个里程碑节点，可以回看 GPT-4o 图像生成全面开放：普通人用文字造图的时代真的来了，对比着看变化会更清晰。想把 AI 工具真正用到日常工作里，可以参考这篇 AI实战应用指南（2026版）：普通人也能用好的10个场景，覆盖了图像生成在内的多个实用场景。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。