ChatGPT Images 2.0 上线:会思考的图像 AI,终于把中文写对了

2026 年 4 月 21 日深夜,OpenAI CEO 开了一场不到半小时的线上直播,发布了 ChatGPT Images 2.0。这个版本背后的模型叫 GPT-Image-2,不是 DALL-E 4,不是 DALL-E 3 的升级,是一个从零重建的东西。

直播里有一句话让我印象比较深:「这次的飞跃,相当于从 GPT-3 跳到 GPT-5。」有点夸张,但在图像生成领域,这几年变化确实没有语言模型那么快——直到这次。


一次真正的架构换代

先说一件可能被忽略的事:2026 年 5 月 12 日,DALL-E 2 和 DALL-E 3 将正式关停。

这不是普通的版本迭代,而是 OpenAI 主动放弃了扩散模型这条技术路线。GPT-Image-2 采用的是自回归架构——同一套思路打造了 GPT-4、GPT-5 的那种架构。

通俗地说,之前的图像生成模型是「噪点去噪」的过程,从一片随机噪声里慢慢还原出图像。而 GPT-Image-2 更像在「写文章」,一个 token 接一个 token 地推理出每一块像素该是什么。

这个变化带来了一个此前很难解决的问题的突破:文字渲染


中文终于不乱码了

在 GPT-Image-2 之前,让 AI 在图片里写中文基本是个玄学操作——有时候像个字,有时候是奇怪的符号,有时候完全认不出来。

GPT-Image-2 的文字渲染准确率接近 99%,支持中文(简繁体)、日语、韩语、印地语、孟加拉语等非拉丁语系。

想让图里出现准确的文字,提示词格式建议这样写:

A poster with neon sign text reading "深夜代码"

用引号把文字内容包起来,模型识别会更准确。

这对做社交媒体配图、产品海报的人来说意义很大。一直以来这都是 AI 生图工具的硬伤,现在基本补上了。


「会思考」的图像 AI

这次最大的亮点不只是文字渲染,而是引入了「思考模式(Thinking Mode)」。

开启思考模式之后,模型生成图片之前会先做推理:联网搜索相关信息,分析图像结构,然后再生成。对话里你可以看到它「想」的过程。

举个例子:你让它画一张「2026 年 4 月的某款手机评测卡片」,它不是凭空想象,而是先联网查这款手机的真实外观和参数,然后再生成。

两种模式的区别:

模式生成速度适用场景
Instant(即时)几秒内简单单张图、日常创作
Thinking(思考)最长 2 分钟需要参考真实信息、多图连贯、复杂构图

Thinking 模式是付费用户专属功能(Plus/Pro/Business/Enterprise),免费用户只能用 Instant 模式。


一次出 8 张,角色不变形

对内容创作者来说,另一个实用升级是多图连贯生成

一条提示词,可以一次输出最多 8 张图,而且同一个角色的脸、服装、画风在 8 张图里保持一致。

做漫画、做社交媒体系列内容、做产品展示图的人,之前都要反复调整提示词、反复手动修改,才能让角色「不换脸」。现在这个问题理论上解决了——实测效果因场景不同会有差异,但整体一致性比之前好很多。


竞品对比:领先多少?

独立评测机构 Arena.ai 发布了最新排行榜:GPT-Image-2 登顶所有 Image Arena 排行榜第一,在文生图领域以 242 分的优势领先第二名(谷歌 Nano-banana-2),Elo 得分 1512

主流竞品对比:

模型文字准确率最大分辨率Elo 评分
GPT-Image-2~99%3840px1512
Midjourney V7改进中2048px~1270
Flux 2 Pro较好2048px~1265
Google Imagen 4较好2048px~1240

需要说明的是,Arena 排名衡量的是综合偏好,Midjourney 在美学风格和艺术感控制上依然有自己的受众,Flux 在摄影写实风格上也有优势,GPT-Image-2 并不是在所有细分场景都是最优解。


定价和使用门槛

ChatGPT 用户:直接在 chat.openai.com 使用,模型自动切换为 GPT-Image-2,无需额外设置。Plus 及以上用户可使用 Thinking 模式。

开发者 API:单张图片成本(参考):

质量档1024×1024备注
低质量$0.006草稿/批量测试
中质量$0.053日常内容生产
高质量$0.211商业发布/印刷级

注意:调用 API 需要先完成 Organization Verification(组织认证),个人开发者如果还没完成认证,目前无法直接调用。Batch API 享有五折优惠,批量生产场景成本可以降一半。


对普通人意味着什么

如果你是设计师或者运营,GPT-Image-2 最直接的价値是:终于可以把它当成一个可信赖的生产工具,而不只是灵感参考。文字渲染准确、多图一致性高、支持局部编辑,做活动海报、产品图、公众号封面的效率会有明显提升。

如果你是开发者,自回归架构意味着图像生成的能力上限会和语言模型同步提升,后续迭代速度预计会比扩散模型时代快很多。

如果你只是普通用户,目前免费账号可以用 Instant 模式生图,想要联网思考功能需要升级 Plus。


还有哪些不足

没有完美的工具,GPT-Image-2 目前已知的局限:

  • 复杂物理建模(液体流动、烟雾动态)效果仍然不自然
  • Thinking 模式下复杂提示词最长需等待约 2 分钟
  • 多轮迭代编辑存在质量递减问题(改了几次之后图像质量会下降)
  • 高质量档每张 $0.211,对个人创作者来说成本不低

小结

GPT-Image-2 最値得关注的不是某个单一功能,而是路线变了

扩散模型走了五六年,从 DALL-E 到 Midjourney,大家都在同一条路上优化。自回归架构换道,意味着图像生成以后和语言模型共享同一套技术红利:推理能力提升、上下文更长、工具调用更顺——这些以后都会传导过来。

中文写对这件事,可能看起来很小,但它背后是整套架构逻辑的重建。这不是升了个版本。


如果你想了解 AI 图像生成的上一个里程碑节点,可以回看 GPT-4o 图像生成全面开放:普通人用文字造图的时代真的来了,对比着看变化会更清晰。想把 AI 工具真正用到日常工作里,可以参考这篇 AI实战应用指南(2026版):普通人也能用好的10个场景,覆盖了图像生成在内的多个实用场景。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

推荐阅读

  • ChatGPT Images 2.0 上线:会思考的图像 AI,终于把中文写对了

    2026 年 4 月 21 日深夜,OpenAI CEO 开了一场不到半小时的线上直播,发布了 ChatGPT Images 2.0。这个版本背后的模型叫 GPT-Image-2,不是 DALL-E …

  • Kimi K2.6 开源,能编 13 小时代码:国产 AI 的编程天花板真的破了?

    月之暗面在 4 月 20 日晚间低调推送了一件事:把 Kimi K2.6 开源了。 说”低调”,是因为没有发布会,没有倒计时直播,甚至连正式的新闻稿都是第二天才陆续出现。但这并…

  • 斯坦福《2026年AI指数报告》:423页数据告诉你,这场技术狂奔正走向哪里

    每年这个时候,斯坦福 HAI 都会发一份让人读完有点后背发凉的报告。今年的423页,照例什么都没藏。 2026年4月13日,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了第九届年度…

  • 人形机器人半马首战北京亦庄:50分26秒夺冠,具身智能的成人礼

    2026年4月19日,北京亦庄。一场特殊的半程马拉松在这里发枪——参赛选手全是一米七左右的人形机器人。 最终,”闪电”机器人以2小时06分37秒的成绩完成21.0975公里的赛…

暗夜独行