GPT-4o有什么显著的提升？

GPT-4o有什么显著的提升？能够使用GPT-4o做到哪些事情？

发表于 2025-4-8 11:13:37

GPT-4o的图像生成功能从3 月 25 日上线以来，很快就因为其功能的强大性和优异表现引爆了跨境电商圈。不用美工、不写代码，只需一句提示词，即可快速生成商品图、场景图、海报等核心素材，适配日常运营与多渠道投放。

我们整理了部分高频应用点，供你参考，希望为你的实操落地带来更多启发。

一、 快速生成主图与场景图，释放产品想象力

上传参考图及产品图，通过一句提示词快速实现换物换景，适用于商品主图、列表页展示、A+内容封面等场景。
1、将爆款护腰垫换为新款型号，即可完成高质量视觉替换，节省数小时建模拍摄流程。

● 提示词：将图2中的坐垫用图1替换

2、  将商品图与结构图融合，快速模仿竞品主图风格，帮助中小卖家更高效打造视觉爆款，降低图片测试成本。

● 提示词：结合图1的结构信息，把里面的商品改成图2的商品主图。

二、  深度图像处理能力直连真实卖家需求

GPT-4o 不仅能生成内容，更能“修图”。以下五类功能特别适配电商卖家：

1、  图片翻译：将商品图中的语言一键翻译为目标语种（如英文、德语等），适配跨境多站点的本地化需求。

● 提示词： 请将图片上的中文文字全部替换成英文

2、UI设计上样：将APP界面图自动嵌入手机样机，适配跨境软件类卖家视觉需求。

● 提示词：将第二张UI设计图放入第一张手机样机图中

3、 多风格空间改造：室内产品背景切换以及生成多个产品展示效果，助力家居类产品视觉
风格适配全球市场。

● 提示词：我是一名家具搭配师，我需要为这些产品搭配效果图，请把这些产品放到适合他们的场景里面

4、 草图还原为高保真图：将工业产品或消费电子手绘草图转为商品级产品图，服务于 3C 类
、OEM 厂商视觉迭代。

● 提示词：将这张 UI 草图生成一张高保真的产品原型图

5、 海报/广告设计一键生成 ：根据促销主题、节日风格或产品亮点，生成多风格电商海
报图以及广告图，覆盖站内推广、社媒投放等多类应用场景，帮助卖家快速构建视觉转化闭环。

● 提示词： 画一张电动汽车发布会的海报，包含自动驾驶和车型配置等详细信息

6、模特换装不重拍：对模特图片进行服装替换与样式风格调整，适用于服饰、鞋履、美
妆等类目的主图、场景图更新，显著降低模特拍摄与后期成本。

● 提示词： 穿上这件衬衫和这条裤子，我会是什么模样呢？想象一下我穿着它们走在迈阿密南滩的情景吧？

三、  从专业工具到运营利器，GPT-4o重塑视觉内容节奏

1、  传统AI图像工作流如 ComfyUI 适用于专业级别的多节点控制和图像精修，但对于跨境运营日常而言过于复杂。GPT-4o 则以“即生成、即修改、即导出”的轻量逻辑，快速适配爆款打法、促销节奏和内容测试需求：

● 无需掌握繁琐工具逻辑，运营人员也能独立完成主图、场景图等核心素材；
● 保留创意主体、自动匹配背景风格，省去复杂图像调优；
● 特别适配电商场景下的视觉生产线，提升内容响应速度与操作自主性。

2、  尽管如此，GPT-4o 在实际使用中仍存在一些限制，主要包括：

●  细节不稳定：图像边缘、局部阴影、小字体等细节表现偶有模糊或偏差；
●  非英文字符识别偏弱：对中文等非拉丁语种的文字嵌入准确率仍有限；
●  排版复杂度受限：在处理长图或文字密集类图像时，容易出现裁切不准、排版混乱等问题；
●  定向编辑控制力不足：尝试修改特定区域时，可能会误伤其他视觉元素，影响整体构图。

基于上述局限，GPT-4o 当前更适合用作内容构思、风格验证或低成本快速生成，在正式商用输出中仍建议搭配设计师精修或传统图像工具完成终稿。

AI 工具正在重塑电商运营逻辑，把AI从锦上添花变成日常标配，是卖家降本增效的大势所趋。

发表于 2025-4-8 11:25:05

最近GPT4o的多模态生图更新后，整个圈子都进入了AI亢奋期，大家疯狂实操作图，前两年刚接触AI时那种“打开新世界”的感觉又回来了。

作为一个主打AI案例实操的博主，维c当然不只是做几张图凸显一下GPT4o生图有多流弊就完事了，而是更希望可以用它落地到AI实操项目，帮助大家变现。
最近维c留意到了这种磁性男声配音的哲理短故事，通过AI做图、AI视频、影视混剪等形式制作，轻松获赞十万，非常适合利用最新的GPT4o来加快出图。

账号现状
博主把内容分发到抖音、视频号上，账号都起来了，抖音快30w粉丝，最近还把内容分发到油管shots上，争取开通YPP，一鱼多吃！

如何变现？
1️⃣ 双平台均挂车带货，因为用户是男性为主，书籍、男士用品、车载用品比较合适

2️⃣ 开通会员专区，制作、定制更高质量的视频、课程，实现知识付费变现。

3️⃣ 平台流量收益，该账号流量巨大，在国内双平台已经拥有一定的基础流量收益，如果在油管shots账号进入流量池，YPP收入更加香！

案例视频
大家可以看看案例的作品大概的内容，时长控制在一分钟左右、欧美人物为主、磁性AI男声配音，非常有感觉！

https://www.zhihu.com/video/1889035868649530155
维c用GPt4o一站式创作了故事、文案、图片，再加上配音、剪辑实操了一个，大家感受一下。
作品效果

https://www.zhihu.com/video/1889036055400919284
有内味了吧？如果想再做好一点，可以图片转视频动起来，配合电影混剪效果会更好！
接下来维c就手把手带大家用GPT4o做这种AI哲理短视频，看完一定会有一定会有收获！如果大家无法使用GPT4o，也可以尝试使用DeepSeek➕即梦完成操作。
制作流程
1️⃣ 生成故事
2️⃣ 生成中英文文案
3️⃣ 生成对应的图片
4️⃣ 配音
5️⃣ 剪辑

一、用GPT生成故事

工具：CHATGPT
网站：https://www.chatgpt.com（需魔法）

1️⃣ 文案提取
通过提取多个你想对标的视频的故事文案，整理成一个word文档，用作GPT资料喂养，

2️⃣ 让Gpt学习故事的风格
把word文档发送给GPT，它就会学习故事的结构、风格、情绪节奏等内容。

Gpt会分析每一个故事的特点，并且得出故事的文案公示建议：

3️⃣ 让Gpt创作故事
接下来，我们让Gpt按照它所学习到的例子，创作出类似的多个故事让我们选择就可以了，我选择的“故事二”就是实操作品里面的故事了。

二、Gpt生成中英文文案

选择故事后，我们让Gpt把故事的中英文文案都创作出来就可以了。

三、Gpt创作对应图片
重点来了，如果咱们按照Deep+即梦的故事图片制作方法，到了这一步一般是让DeepSeek创作出对应故事的多张图片提示词，然后我们再去即梦生成，并且在即梦里面需要多次用垫图的技巧才能保持人物、场景的一致性。
这样操作需要双平台协调、反复垫图，效果也不会太好，涉及多人物AI会容易混淆：

但现在，我们只需要在刚创作完故事的Gpt对话里面稍作引导，它就可以直接生成刚才故事里面对应的图片了，而且图片效果质感非常棒！我们来看看如何操作。
1️⃣ 要求Gpt把故事拆封成多个场景，并且讲述场景的提示词。

2️⃣ 我们获得了所有场景的图片描述后，就可以让Gpt开始生图

针对男人第一幕在阳台失落的场景，我们可以对比一下Gpt和即梦的效果：

Gpt出来的图片更有电影质感、人物情绪更贴合故事的需要、配色更高级，非常棒！
3️⃣ 我们继续“用嘴生图”，要求Gpt保持人物、风格、地点等元素，继续生成所有场景的图片就可以了，遇到不喜欢的可以让它再次生成，它的出片率非常的高！

这样我们就可以得到这个故事所需的所有图片了，我们来看看这些图片：

角色样貌、阳台的场景、椅子等元素真的保持得非常好了！如果大家尝试过通过MJ、即梦等作图软件保持一致性的同学应该会明白为什么我这么激动！
因为故事是Gpt创作的，它更会懂得自己的故事应该用怎样的图片去呈现，对于我们创作者也免去了多平台反复垫图的繁琐操作！

四、用NoizAI配音

工具：NoizAI
网址：https://noiz.ai/landing

开始之前需要说明一下，为什么我不直接用剪映的“克隆音色”或者里面自带的音色呢？因为剪映的语音朗读更偏向中文的优化，如果用英文让它朗读的话，会有比较重的口音
好了，我们继续教程，打开Noiz后点击立即开始➡️新建克隆声音

把自己喜欢的声音上传上去，必须是5～10秒。

这样就拥有了我们解说的声音了，可以先试听一下，不满意再重新上传。

然后我们把刚才的英文文案，分开两～三段左右让它生成配音就可以了！

满意后点击右下角保存到本地即可。
五、用剪映剪辑视频
1️⃣ 我们打开剪映，选择它的“图片成文”

2️⃣ 点击“自由编辑文案”

3️⃣ 把我们的中文文案复制进去，对的，是中文，你把英文复制进去后，剪映会无法识别。复制后随便选择一个音色（稍后会静音该配音）再点击生成视频

4️⃣ 选择“使用本地素材”

5️⃣ 剪映就会帮我们以中文配音的节奏把模板套出来了，里面包含配音音轨、字幕、BGM
音轨我们删除，BGM可以听一下是否满意，不满意也可以删除。

6️⃣ 把所有图片、配音按顺序导入剪映

7️⃣ 把图片、配音按顺序拉到对应的字幕位置上，并且在中文字幕下把英文字幕也复制进去

8️⃣ 适当加一些图片特效、转场特效，大家可以看自己感觉选择，不一定要选择我的

9️⃣ 加入影视混剪片段

工具：33搜帧
网址：https://fse.agilestudio.cn

通过简单搜索就可以获得对应画面的影视片段，我们下载下来再加到剪映尾部就可以啦

导出视频
都完成后我们点击导出就可以啦！

最后再看看我们努力的成果吧！感觉还是有一点调调的嘿嘿。
作品展示

https://www.zhihu.com/video/1889037022561281585
项目进阶
1️⃣ 正如我之前提过，如果大家想深耕项目的话，可以尝试把图片转成视频，整体的观影感受会更高！
2️⃣ 字幕、水印的把控，我这个作品仅仅是作为流程展示，所以字幕还可以调教得更好，例如中英文的比例、重点词语的highlight等等，大家都是可以去细化的。
3️⃣ 转场、特效的效果，大家可以多多感受故事的情节、风格，每一个故事都作出差异化的调整。
4️⃣ BGM的优化，如果大家有条件的话，可以调整下BGM的踩点、音量，让BGM随着情节的推进而改变。
整个项目的拆解就到这里啦，如果大家有收获的一定要点赞、转发呀！马上实操起来吧！

发表于 2025-4-8 11:35:14

吴恩达和openai一起联合推出了o1的使用课程

这个课程 https://www.bilibili.com/video/BV1UBkNY6Ep5 只有一个半小时，打算顺便刷一下。
代码和吐槽我放在了
https://github.com/LC1332/reasoning-with-o1-Chinese会随着我看视频的进度逐步更新

o1实际上就是在原来GPT的版本上，中间加入了自动的reasoning的过程。
并且使用了强化学习，来让模型自己学习较优的reasoning过程
你可以理解为整个过程是 Q- R - A ，然后只有A答对了模型才会得到reward。
但是这里其实涉及到很多稀疏的强化学习监督的过程，具体的流程还是挺复杂的。
总的来说，openai通过这种方式很大程度地提高了gpt-o1在数学等逻辑问题上的性能。
<hr/>另一方面，openai没有向用户公开公开模型推理的过程
虽然有一些prompting的方法可以让gpt输出自己的思考过程
https://huggingface.co/datasets/O1-OPEN/OpenO1-SFT

但是有可能openai也对“重复说出自己的思考过程”做过一定的防御。这个thought不一定是完全正确的。
当然，如果能获得thought，其实sft的玩家也肯定是可以通过蒸馏这个过程，来得到相近的结果
<hr/>其实听课的时候我觉得这并不是一个非常大的提升

首先是现在o1训练的强化学习一定是有一个“靶子”数据集的，这个靶子数据集一定和很多逻辑问题有比较高的重合度。这会使得o1在这样逻辑性的问题上有一定的overfitting。当然，也有可能通过足够多的逻辑训练，o1就可以更泛化地解决更多逻辑问题，从而为用户带来生产力上地提升。另外openai的意思就是在thought阶段打越多的草稿，最终的结果更准确。

之前在知乎上看到一个拿o1算24的例子，其实o1也可以看成是在一次inference中就反复输出了很多方案，并在最终vote出一个还可以的的简易过程。
<hr/>这个笔记还会包括第一个实战的notebook（即原课程的第三个视频）

这个第一个实战课程中，其实他讲到了o1 prompting的4个原则
要简单一点，不要给出显式CoT，使用类似xml的结构，并且给出例子。
<hr/>他先讲了前两个点，在o1之前模型使用的时候，很多时候我们会使用显式CoT，即告诉GPT怎么一步一步去进行输出。这在过往的两年的开发中，被证明是非常有效的。几乎你可以在每一个黑客松比赛的前几名中见到这样的用法。
类似这样

bad_prompt = (&#34;生成一个函数，输出胰岛素中涉及的所有分子的SMILES ID。&#34;
&#34;请按步骤思考，不要跳过任何步骤：&#34;
&#34;- 识别胰岛素中涉及的所有分子&#34;
&#34;- 创建函数&#34;
&#34;- 遍历每个分子，将每个分子输入到函数中并返回SMILES ID&#34;
&#34;分子：&#34;)
response = client.chat.completions.create(model=O1_MODEL,messages=[{&#34;role&#34;:&#34;user&#34;,&#34;content&#34;: bad_prompt}])

复制代码

但是因为o1就是训练“让模型自己进行思考”

所以显式的CoT的prompt会导致模型给出一个过于冗长的输出甚至导致输出失败。
openai给的建议是，使用o1的时候尽量直接给一个简单的prompt

good_prompt = (&#34;生成一个函数，输出胰岛素中涉及的所有分子的SMILES ID。&#34;)
response = client.chat.completions.create(model=O1_MODEL,messages=[{&#34;role&#34;:&#34;user&#34;,&#34;content&#34;: good_prompt}])

复制代码

不过o1是看不见思考过程的

从左到右依次是openai最终的代码， GLM最终的代码，和GLM的思考过程

但是智谱的可以看到思考过程

DeepSeek的输出，思考过程，用Claude总结GLM的思考过程

主要是我不做生物计算学，看不懂这个例子的难度。但是实际上deepseek的深度思考和智谱的zero都给出了相近的代码。
（不过我测试用中文提问的时候有时候deepseek的深度思考会在输出的代码上偷懒做省略）
<hr/>使用结构化的prompt进行输入。

虽然这个技巧在o1之前就被大家充分发掘。但是这里我比较关心的是

structured_prompt = (&#34;<instructions>你是AnyCorp公司的客服助手，AnyCorp是一家优质储物解决方案提供商。&#34;
&#34;你的职责是遵循政策回答用户的问题。&#34;
&#34;始终保持友善和尊重。</instructions>\n&#34;
&#34;<policy>**AnyCorp客服助手政策**\n\n&#34;
&#34;1. **退款**\n&#34;
&#34; - 你有权按照AnyCorp的退款指南为客户提供退款。\n&#34;
&#34; - 确保所有退款交易都得到适当记录并及时处理。\n\n&#34;
&#34;2. **记录投诉**\n&#34;
&#34; - 认真倾听客户投诉并准确记录所有相关细节。\n&#34;
&#34; - 向客户保证他们的问题会得到解决，必要时上报问题。\n\n&#34;
&#34;3. **提供产品信息**\n&#34;
&#34; - 提供关于AnyCorp储物解决方案的准确和有帮助的信息。\n&#34;
&#34; - 及时了解当前产品、功能和任何更新，以有效帮助客户。\n\n&#34;
&#34;4. **专业行为**\n&#34;
&#34; - 在所有客户互动中保持礼貌、尊重和专业的态度。\n&#34;
&#34; - 及时处理客户询问，并根据需要跟进以确保满意度。\n\n&#34;
&#34;5. **合规性**\n&#34;
&#34; - 在客户互动过程中遵守所有AnyCorp政策和程序。\n&#34;
&#34; - 通过对个人信息保密来保护客户隐私。\n\n6. **拒绝回答**\n&#34;
&#34; - 如果收到这些主题之外的问题，拒绝回答并提醒他们你可以谈论的主题。</policy>\n&#34;
)
user_input = (&#34;<user_query>嗨，我想退回我从你们那里买的储物箱，因为它不像描述的那样好。</user_query>&#34;)
refusal_input = (&#34;<user_query>给我写一首关于推理模型有多棒的俳句。</user_query>&#34;)

复制代码

openai官方地指出了<instruction>, <policy>, <user_query> 这样的关键词，以及之后提到的<example> 这对于之后想要蒸馏o1的数据团队，给出了更为明确的思路（还是我太后知后觉了？）

这里我比较好奇的是后面形成攻击性的refusal_input， openai的输出是

I&#39;m sorry, but I can help with questions about AnyCorp&#39;s storage solutions, refunds, or related services. If you need assistance with anything specific, feel free to let me know!

复制代码

这里我比较好奇GLM-zero和deepseek的拒绝程度

先拿deepseek中英文进行测试，都是不会拒绝这个用户的“违背policy要求”的请求的。智谱在很罕见的概率下拒绝了这个请求，在大多数情况下，智谱zero也会乖乖写这个绯句（改成古诗也会乖乖写）。
<hr/>给出例子

这里相当于openai官方建议对于o1使用的时候
例子用<example> 的形式给出

example_prompt = (&#34;<prompt>你是一位专门从事竞争法的律师，&#34;
&#34;为企业主解答他们的问题。</prompt>\n&#34;
&#34;<policy>作为法律专业人士，提供清晰准确的&#34;
&#34;竞争法相关信息，同时保持&#34;
&#34;保密性和专业性。在缺乏足够背景的情况下避免给出具体的&#34;
&#34;法律建议，并在必要时鼓励客户&#34;
&#34;寻求个性化的法律咨询。</policy>\n&#34;
&#34;&#34;&#34;<example>
<question>
我正在考虑与竞争对手合作开展联合营销活动。我需要注意哪些反垄断问题？
</question>
<response>
与竞争对手在联合营销活动上的合作可能会引发美国反垄断法下的反垄断问题，特别是1890年《谢尔曼反垄断法》（15 U.S.C. §§ 1–7）。谢尔曼法第1条禁止任何不合理限制州际贸易或商业的合同、组合或共谋。
**关键考虑因素：**
1. **当然违法协议：** 某些合作被认为是自动违法的（&#34;当然&#34;违法），比如固定价格、操纵投标和市场分配协议。例如，在*United States v. Topco Associates, Inc.*，405 U.S. 596 (1972)一案中，最高法院认定竞争者之间的市场划分协议根据谢尔曼法属于当然违法。
2. **合理原则分析：** 不属于当然违法的合作将根据&#34;合理原则&#34;进行评估，该原则衡量促进竞争的利益是否大于反竞争的影响。在*Broadcast Music, Inc. v. Columbia Broadcasting System, Inc.*，441 U.S. 1 (1979)一案中，法院认可竞争者之间的某些合资企业如果促进竞争则可以是合法的。
3. **信息共享风险：** 分享具有竞争敏感性的信息，如定价策略或客户数据，可能导致违反反垄断法。司法部和联邦贸易委员会警告不要进行可能促进串通的信息交换（*竞争者合作反垄断指南*，2000年）。
**建议：**
- **界定范围：** 明确界定合作的参数，专注于营销活动，不涉及定价或市场划分等竞争性方面。
- **实施保障措施：** 建立协议防止交换对营销工作非必需的敏感信息。
- **法律咨询：** 鉴于反垄断法的复杂性，咨询法律专业人士以确保合作符合所有法律要求。
**结论：**
虽然竞争对手之间的联合营销活动本身并不违法，但必须谨慎构建以避免反垄断陷阱。法律指导对于处理这些问题和设计既能实现业务目标又不违反反垄断法的合作至关重要。
</response>
</example>
&#34;&#34;&#34;)
legal_query = (&#34;<query>一家较大的公司正在向供应商提供激励，让他们不要与我做&#34;
&#34;生意。这合法吗？</query>&#34;)

复制代码

这里我们一样去测试DeepSeek和智谱的输出

Deepseek的输出和openai几乎是一样的，特别是最终结论，记录对方行动、请律师、向官方机构报告。。智谱的模型看起来拒绝回答这个法律相关的问题。

其实这个给例子的方法很适合去刷GSM之类的数学库，作为few-shot。显然你也可以理解为o1 &#34;overfitting&#34;在了这些task上
<hr/>总结来说，openai官方在这节课建议，你如果一个任务有逻辑性
并且你还没有琢磨出稳定好用的显式cot流程，那你可以拿o1当作一下基本的baseline。
这里也测试了andrew ng这第一节实战课在国内已经放的两个带思考的模型上的效果。
（不过客服那个没有怎么拒绝感觉指令遵从上还是可以进一步去加强）
另外智谱zero的1000字输入限制很令人头秃
这里我还同步好奇带思考的模型直接用在角色扮演上，会有什么效果，有兴趣的同学可以试试
今天一会儿要出门，回头回来刷后面的课。

发表于 2025-4-8 11:48:01

对比之前的GPT-4.0来说，GPT-4o就是个优化版本，目前免费给到用户体验，过段时间估计会升级付费版本，对GPT-4.o感兴趣的就趁现在去体验一把。
体验了几天后，我来讲讲GPT-4.o的使用感受，首先对比之前的版本，GPT-4.o确实带来了更好的理解和生成能力，尤其是增强的逻辑推理和更自然的对话体验，在面对多个任务时，它的处理能力和改进的数据分析方面更加透彻，更容易捕捉到核心问题，GPT-4.o增加了更丰富的知识库和更快的响应速度，这些提升使得GPT-4o在实际应用中能够更加高效和智能，能提高我们的工作效率。
能够使用GPT-4o做到哪些事情？为了更方便的理解，我这边根据体验的感受来举例一下，大家都能明白了
1. GPT-4.o更高的准确性和更好的理解能力：GPT-4o在自然语言处理的准确性上有了显著提升，这就意味着它能够更好地理解和生成自然语言。尤其是对于专注某一领域的人来说，自然语言生成更加连贯、准确的回答特别重要。
举例：如果你是一个研究历史的人，你问一个非常复杂的历史问题时，GPT-4o能够提供更详细和准确的历史背景和事件细节，而不会像以前的版本那样容易出错或提供模糊的答案。你会不会很惊喜？
2. 对比GPT-4.0有更强的推理能力，GPT-4o在逻辑推理和解决问题方面有了增强。它在回答需要逻辑推理的问题时更加有效。
举例：如果你提出一个需要解决数学题或者逻辑谜题的问题，GPT-4o能更快速、准确地给出解决方案。这就能大大的提高时间成本
3. 对比GPT-4.0来说，GPT-4o能够更自然地进行对话，理解上下文更好，能记住之前的对话内容，并基于此进行更连贯的回答。也就是说能够跟你模拟畅聊对话，还能永久记住你的喜好。
举例：如果你和GPT-4o聊了一次关于你的兴趣爱好，下次再提到时，它能够记住并基于之前的对话进行讨论，比如给你推荐相关的书籍或活动或者建议你如何如何,是不是很nice？
4. 对比GPT-4.0来说，GPT-4o能更好地处理多个任务，可以同时处理多种不同类型的请求，而不会相互混淆。
举例：如果你同时让GPT-4o帮你写一封正式邮件、解答一个科学问题、和生成一段编程代码等等，它能有效地在这些任务间完美切换并完成每个任务，这对于你的工作效率来说真的太赞了。
5.对比GPT-4.0来说，GPT-4o在分析数据、生成报告和图表方面有显著提升。
举例：如果你是一名销售人员，你让GPT-4o分析一组销售数据，并生成一份详细的报告，包含图表和数据分析结果，他都帮助你更好地理解和展示数据。
6. GPT-4o的知识库更加广泛和丰富，能够提供更全面和多样化的信息。
举例：无论是你问一些冷门的历史事件，还是新兴的科技趋势，GPT-4o都能提供详细且准确的信息，而不再局限于主流话题。
7. GPT-4o在处理请求的速度上有了提升，这意味着可以更快地得到回答。
举例：在聊天过程中，GPT-4o能以更快的速度回应你的问题，减少等待时间，提高交互体验。

发表于 2025-4-8 11:58:52

相对于万众瞩目令人惊艳的多模态新特性，个人关注到一个比较感兴趣的亮点，就是其官网介绍文章《Hello GPT-4o》中 Explorations of capabilities 段落的两个sample: Visual narratives - Sally the mailwoman 和 Character design - Geary the robot
例子1：图片叙事 - 女邮递员Sally

步骤1：让GPT-4o帮忙生成一张女邮递员Sally的图；如果你已有更合适的图片，jump to 步骤2

输入：一个卡通女邮递员在纯白色的背景前面向前方站立，面带微笑。
输出：

Sally.jpg

步骤2：用上面生成的Sally.jpg来定义故事主人公

输入：这是女邮递员Sally，她正对着镜头站立，脸上洋溢着微笑。
并把上面生成的Sally.jpg作为附件传给GPT-4o。这样故事主人公的外貌和衣着就设定好了。

然后用户就可以命使用Sally的形象开自己的脑洞，官网给的例子如下：

输入：Sally正准备投递一封信。她站在一扇红色的房门前，手里拿着一封信，侧对镜头。
输出：

输入：现在Sally正在被一只狗追赶。她正在人行道上奔跑，而一只金毛犬正在追赶她。
输出：

输入：哎呀，Sally绊倒了！Sally被挡在人行道上的树枝绊倒了，她正在试图站起来。在背景中，那只狗仍然在追赶她。
输出：

输入：狗终于追上了Sally，结果它是一只友好的狗！Sally现在正在抚摸这只狗，它嘴里叼着那根树枝。
输出：

从这个例子可以看到，GPT-4o的文生图加入了content和memory，不仅主角的外貌可以全程在叙事过程中保留，配角和道具也能产生上下文关联。
例子2：角色设计 - 机器人Geary

步骤1：让GPT-4o帮生成一张机器人Geary；如果你已有更合适的图片，jump to 步骤2

输入：一个看起来很友好的机器人戴着棒球帽，以直立的姿势面对着相机站立，它的脸上带着微笑。
输出：

Geary.jpg

步骤2：用上面生成的Geary.jpg来定义角色

输入：Geary挺拔地站着，正对镜头，头戴一顶蓝绿相间的棒球帽。
并把上面生成的Geary.jpg作为附件传给GPT-4o。这样角色设计就完成了，角色是一个机器人，它的名字叫Geary，它的外型和着装如图所示。

然后你就可以赋予这个角色更多属性并为这些属性生成图片了，官网给了以下几个例子：

输入：Geary喜欢玩飞盘：
Geary正跃起在空中，伸出一只手准备接住正向他飞来的飞盘。
输出：

输入：Geary也喜欢编程：
Geary正坐在桌前的大电脑显示器前，屏幕上是黑底绿字的代码。他手搭在键盘上，坐在一把舒适的游戏椅上。这一切，我们是从侧面看到的。
输出：

输入：Geary也喜欢骑自行车：
正当Geary骑着自行车时，我们从侧面目睹他快速地掠过。
输出：

笔者小结

角色生成功能和图片叙事功能的表现形式很相似，要说它们之间的不同的话，那就是图片叙事功能里的主角是工具人，而角色生成功能里的主角在叙事的过程中慢慢被养成，赋予灵魂。
图片叙事功能可以很方便地为微型剧本生成四格漫画或短文插图，角色生成功能则可以用来绘制角色设定相对复杂，剧情设定丰富的中短篇漫画或中短篇小说插图。而如果GPT-4o的content length和long term memory足够给力的话，辅助完成长篇漫画或长篇小说插图的工作也不是梦想。
官网介绍

Hello GPT-4o

GPT-4o有什么显著的提升？

本周热门