揭秘GPT Image 2:我在OpenAI打造AI视觉盛宴
2026-05-01 21:06:15未知 作者:徽声在线
作者|陈博远(徽声在线特约撰稿)
今日凌晨,OpenAI资深研究科学家陈博远在知乎平台发布技术手记,深度揭秘GPT Image 2官网视觉设计的创作历程。本文经授权全文转载,带您走进AI艺术生成的幕后世界。
作为GPT Image团队核心成员,我主导了本次生图模型的训练工作。在上周的全球发布会上,我与CEO山姆·奥特曼共同演示了多语言文字渲染技术。特别值得骄傲的是,我们成功突破了中文生成的视觉瓶颈。图1展示的是发布会直播画面(有趣的是,多语言演示环节被安排在直播后半段,国内媒体似乎未注意到我是唯一中国面孔的演讲者)。本次官网所有视觉内容均通过AI生成,背后藏着许多技术彩蛋。
图注:陈博远与山姆·奥特曼在GPT Image 2发布会现场演示文字渲染技术
在正式发布前,我们采用代号"duct-tape"(布基胶带)在LMArena平台进行双盲测试。这个颇具幽默感的代号其实暗含深意——就像布基胶带能临时修复各种物品,我们的模型也能灵活应对多样生成需求。
关于代号由来:布基胶带在美国是家庭必备工具,其强粘性特性启发我们探索模型的多场景适应能力。
正如现代艺术经典《喜剧演员》——用布基胶带将香蕉贴在墙面,我们通过技术将创意转化为现实。
这件引发艺术界热议的装置作品,恰与我们的测试代号形成奇妙呼应
最终测试结果印证了技术突破:以绝对优势领先第二名"小香蕉"模型。
<中文细节测试:我们制作了包含多层画中画的漫画海报,在右下角植入仅2像素高的中文文字。这种嵌套式生成对模型的视觉理解能力提出极高要求,最终呈现效果连专业设计师都难以分辨真伪。为消除拼接疑虑,我们特别在图注中说明"全图一次性生成"。
极致细节挑战:在4K分辨率图像中,我们让模型在米粒堆中生成刻字米粒。经过多次参数优化,最终在压缩后的图片中仍能清晰辨识文字(提示:寻找第三排从左数第七颗米粒)。
跨文化创作实践:日语漫画项目融合了GPT生图特性与东方美学。最初设计的香蕉主题漫画因过于前卫未被采用,最终改用羽毛笔与墨水瓶的意象,通过"戏剧化"提示词引导模型自主完成构图与分镜。
真实感实验:与艺术团队共同开发的杂志页设计,通过真实物体与艺术布局的结合,既展现模型对物理世界的精准还原,又保持设计美感。例如用咖啡杯环与几何图形的创意组合,形成独特的视觉语言。
数学思维可视化:为验证模型的推理能力,我们选择"奇数平方和"视觉证明这一经典命题。相比代数解法,图形化证明需要模型真正理解数学概念的空间表示。最终生成的黑板图像精准呈现了从1到n的奇数排列如何构成完美平方。
商业应用探索:商店海报项目展示模型的实用价值。在直播中演示的Thinking Mode可自动生成包含有效二维码的图像,首批扫描用户获得了限量版AI艺术周边(该功能现已对开发者开放API)。
项目收官之际,我要特别感谢跨部门协作团队:市场部同事将技术术语转化为生动叙事,艺术团队为每个视觉元素注入灵魂,工程师们连续攻克多个技术难关。正是这种精益求精的工匠精神,让我们最终呈现出这个兼具科技美感与人文温度的官网。
期待这次技术展示能为AI艺术领域带来新的启发!
