如何看待 OpenAI 新推出的 4O Image Generation?

如何看待 OpenAI 新推出的 4O Image Generation?
收藏者
0
被浏览
93

2 个回答

mjfh LV

发表于 2025-4-8 14:16:54

利好自回归

迟钝的小松鼠 LV

发表于 2025-4-8 14:28:25

测试效果还不错,效果很惊艳:

如何看待 OpenAI 新推出的 4O Image Generation?-1.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-2.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-3.jpg

OpenAI这次发布的4o图像生成技术,以多模态模型的深度整合为核心,通过联合训练文本、图像和声音数据,实现跨模态的深度关联。下面的白板示例展示了模型如何将复杂技术方案(如“自回归先验+扩散解码器”架构)转化为可视化图表,同时保留公式与逻辑细节。

如何看待 OpenAI 新推出的 4O Image Generation?-4.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-5.jpg

精准文本渲染与场景构建

支持生成含精确文字的场景图像(如带有政策说明的路标、餐厅菜单、婚礼请柬),文字排版准确且风格适配场景。

如何看待 OpenAI 新推出的 4O Image Generation?-6.jpg

示例包括:纽约街头带有“女巫专用扫帚停车区”的恶搞路标、韩式餐厅的手绘风格菜单、结合雕塑与渐变效果的产品广告海报。

如何看待 OpenAI 新推出的 4O Image Generation?-7.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-8.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-9.jpg

多轮对话迭代优化

用户可通过自然对话持续调整图像。例如,将戴侦探帽的猫咪逐步扩展为蒸汽朋克风格的游戏角色界面,并保持角色设计的一致性。

如何看待 OpenAI 新推出的 4O Image Generation?-10.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-11.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-12.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-13.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-14.jpg

指令遵循能力
GPT‑4o的图像生成功能能够精准遵循复杂提示词,对细节的关注度显著提升。相较于其他系统仅能处理约5-8个对象,GPT‑4o可同时控制10-20个不同对象。通过更紧密地将对象与其属性、关联关系绑定,模型实现了更精准的图像控制力。

如何看待 OpenAI 新推出的 4O Image Generation?-15.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-16.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-17.jpg

上下文学习与知识整合

模型能解析用户上传的参考图(如三角形车轮设计草图),生成符合要求的延展场景(如纽约街景中的专利车辆展示)。

如何看待 OpenAI 新推出的 4O Image Generation?-18.jpg

结合世界知识生成科普内容,如旧金山雾霾成因信息图、鲸类水彩科普海报。

如何看待 OpenAI 新推出的 4O Image Generation?-19.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-20.jpg

多样化风格与真实感

覆盖从极简主义贴纸到电影级画面的风格:

如何看待 OpenAI 新推出的 4O Image Generation?-21.jpg


拟真场景:2006年多伦多农贸市场的怀旧照片、海底地铁站的海豚漫游。

如何看待 OpenAI 新推出的 4O Image Generation?-22.jpg

创意合成:水果与微型星球共存的静物摄影、宇航员在空间站绘制星系的超现实画面。

如何看待 OpenAI 新推出的 4O Image Generation?-23.jpg


如何看待 OpenAI 新推出的 4O Image Generation?-24.jpg


当前限制与改进方向


  • 技术瓶颈:处理超20个对象的复杂构图、非拉丁文字渲染、密集小字号文本时存在挑战。
  • 编辑精度:局部修改可能影响整体画面,人脸编辑一致性仍在优化。
  • 安全措施:采用C2PA元数据溯源生成内容,通过推理模型强化审核机制,限制敏感内容生成。

如何看待 OpenAI 新推出的 4O Image Generation?-25.jpg

应用场景与可用性

该功能已向ChatGPT免费版及付费用户开放,即将支持企业版和API调用。用户可通过自然语言描述需求(指定宽高比、颜色代码等),平均生成时间约1分钟。DALL·E仍作为独立GPT保留。

您需要登录后才可以回帖 登录 | 立即注册