如何看待 OpenAI 新推出的 4O Image Generation？

如何看待 OpenAI 新推出的 4O Image Generation？

收藏者

0

被浏览

93

2 个回答

mjfh LV

发表于 2025-4-8 14:16:54

利好自回归

迟钝的小松鼠 LV

发表于 2025-4-8 14:28:25

测试效果还不错，效果很惊艳：

如何看待 OpenAI 新推出的 4O Image Generation？-1.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-2.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-3.jpg

OpenAI这次发布的4o图像生成技术，以多模态模型的深度整合为核心，通过联合训练文本、图像和声音数据，实现跨模态的深度关联。下面的白板示例展示了模型如何将复杂技术方案（如“自回归先验+扩散解码器”架构）转化为可视化图表，同时保留公式与逻辑细节。

如何看待 OpenAI 新推出的 4O Image Generation？-4.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-5.jpg

精准文本渲染与场景构建

支持生成含精确文字的场景图像（如带有政策说明的路标、餐厅菜单、婚礼请柬），文字排版准确且风格适配场景。

如何看待 OpenAI 新推出的 4O Image Generation？-6.jpg

示例包括：纽约街头带有“女巫专用扫帚停车区”的恶搞路标、韩式餐厅的手绘风格菜单、结合雕塑与渐变效果的产品广告海报。

如何看待 OpenAI 新推出的 4O Image Generation？-7.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-8.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-9.jpg

多轮对话迭代优化

用户可通过自然对话持续调整图像。例如，将戴侦探帽的猫咪逐步扩展为蒸汽朋克风格的游戏角色界面，并保持角色设计的一致性。

如何看待 OpenAI 新推出的 4O Image Generation？-10.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-11.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-12.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-13.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-14.jpg

指令遵循能力
GPT‑4o的图像生成功能能够精准遵循复杂提示词，对细节的关注度显著提升。相较于其他系统仅能处理约5-8个对象，GPT‑4o可同时控制10-20个不同对象。通过更紧密地将对象与其属性、关联关系绑定，模型实现了更精准的图像控制力。

如何看待 OpenAI 新推出的 4O Image Generation？-15.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-16.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-17.jpg

上下文学习与知识整合

模型能解析用户上传的参考图（如三角形车轮设计草图），生成符合要求的延展场景（如纽约街景中的专利车辆展示）。

如何看待 OpenAI 新推出的 4O Image Generation？-18.jpg

结合世界知识生成科普内容，如旧金山雾霾成因信息图、鲸类水彩科普海报。

如何看待 OpenAI 新推出的 4O Image Generation？-19.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-20.jpg

多样化风格与真实感

覆盖从极简主义贴纸到电影级画面的风格：

如何看待 OpenAI 新推出的 4O Image Generation？-21.jpg

拟真场景：2006年多伦多农贸市场的怀旧照片、海底地铁站的海豚漫游。

如何看待 OpenAI 新推出的 4O Image Generation？-22.jpg

创意合成：水果与微型星球共存的静物摄影、宇航员在空间站绘制星系的超现实画面。

如何看待 OpenAI 新推出的 4O Image Generation？-23.jpg

如何看待 OpenAI 新推出的 4O Image Generation？-24.jpg

当前限制与改进方向

技术瓶颈：处理超20个对象的复杂构图、非拉丁文字渲染、密集小字号文本时存在挑战。
编辑精度：局部修改可能影响整体画面，人脸编辑一致性仍在优化。
安全措施：采用C2PA元数据溯源生成内容，通过推理模型强化审核机制，限制敏感内容生成。

如何看待 OpenAI 新推出的 4O Image Generation？-25.jpg

应用场景与可用性

该功能已向ChatGPT免费版及付费用户开放，即将支持企业版和API调用。用户可通过自然语言描述需求（指定宽高比、颜色代码等），平均生成时间约1分钟。DALL·E仍作为独立GPT保留。

本周热门