迟钝的小松鼠 LV
发表于 2025-4-8 14:28:25
测试效果还不错,效果很惊艳:
OpenAI这次发布的4o图像生成技术,以多模态模型的深度整合为核心,通过联合训练文本、图像和声音数据,实现跨模态的深度关联。下面的白板示例展示了模型如何将复杂技术方案(如“自回归先验+扩散解码器”架构)转化为可视化图表,同时保留公式与逻辑细节。
精准文本渲染与场景构建
支持生成含精确文字的场景图像(如带有政策说明的路标、餐厅菜单、婚礼请柬),文字排版准确且风格适配场景。
示例包括:纽约街头带有“女巫专用扫帚停车区”的恶搞路标、韩式餐厅的手绘风格菜单、结合雕塑与渐变效果的产品广告海报。
多轮对话迭代优化
用户可通过自然对话持续调整图像。例如,将戴侦探帽的猫咪逐步扩展为蒸汽朋克风格的游戏角色界面,并保持角色设计的一致性。
指令遵循能力
GPT‑4o的图像生成功能能够精准遵循复杂提示词,对细节的关注度显著提升。相较于其他系统仅能处理约5-8个对象,GPT‑4o可同时控制10-20个不同对象。通过更紧密地将对象与其属性、关联关系绑定,模型实现了更精准的图像控制力。
上下文学习与知识整合
模型能解析用户上传的参考图(如三角形车轮设计草图),生成符合要求的延展场景(如纽约街景中的专利车辆展示)。
结合世界知识生成科普内容,如旧金山雾霾成因信息图、鲸类水彩科普海报。
多样化风格与真实感
覆盖从极简主义贴纸到电影级画面的风格:
拟真场景:2006年多伦多农贸市场的怀旧照片、海底地铁站的海豚漫游。
创意合成:水果与微型星球共存的静物摄影、宇航员在空间站绘制星系的超现实画面。
当前限制与改进方向
- 技术瓶颈:处理超20个对象的复杂构图、非拉丁文字渲染、密集小字号文本时存在挑战。
- 编辑精度:局部修改可能影响整体画面,人脸编辑一致性仍在优化。
- 安全措施:采用C2PA元数据溯源生成内容,通过推理模型强化审核机制,限制敏感内容生成。
应用场景与可用性
该功能已向ChatGPT免费版及付费用户开放,即将支持企业版和API调用。用户可通过自然语言描述需求(指定宽高比、颜色代码等),平均生成时间约1分钟。DALL·E仍作为独立GPT保留。 |
|