OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?

4 月 17 日消息,在今日凌晨的直播中,OpenAI 正式发布了 o3 和 o4-mini 模型
OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI 发布的最智能的模型”,代表了 ChatGPT 能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-1.jpg


首次,新的推理模型可以智能地使用和结合 ChatGPT 中的每一个工具 —— 包括搜索网络、使用 Python 分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。
关键的是,这些模型被训练来推理何时以及如何使用工具来产生详细和深思熟虑的答案,通常在不到一分钟内,以解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更智能、能够独立执行任务的 ChatGPT 迈进。
性能表现

o3 是 OpenAI 最强大的推理模型,它在编码、数学、科学、视觉感知等领域号称处于前沿,在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA。
OpenAI 称,o3 非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中,o3 在困难、现实世界的任务上比 OpenAI o1 少犯 20% 的重大错误 —— 特别是在编程、商业 / 咨询和创意构思等领域表现出色。
早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。
OpenAI o4-mini 是一个针对快速、成本效益推理进行优化的较小模型 —— 它在其大小和成本方面取得了“令人瞩目的性能”,尤其是在数学、编码和视觉任务上。在 AIME 2025 上,当提供 Python 解释器时,o4-mini 得分 99.5%。在专家评估中,它还在非 STEM 任务以及数据科学等领域相比前辈 o3-mini 表现更出色。得益于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成为推理受益问题的强大高容量、高吞吐量选项。
与 OpenAI 的前几代推理模型相比,这两个模型也支持更加自然的对话,尤其是在它们参考记忆和过去的对话来使响应更加个性化和相关时。
能够推理图片
在整个 OpenAI o3 的开发过程中,OpenAI 发现大规模强化学习表现出与 GPT 系列预训练中观察到的相同的“更多计算能力 = 更好性能”趋势。通过重走扩展路径,OpenAI 在训练计算和推理时间上又推进了一个数量级,但仍然看到了明显的性能提升,这验证了随着模型被允许进行更多思考,其性能仍在持续提升。与 OpenAI o1 相比,在相同的延迟和成本下,o3 在 ChatGPT 中提供了更高的性能 —— 如果我们让它思考更长的时间,其性能会持续攀升。
从下面这个实例可以看到,这些模型可以直接将图像整合到它们的思维链中。它们不仅仅是看图像 —— 而是用图像思考。这解锁了一种新的问题解决类别,融合了视觉和文本推理。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-2.jpg


人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、颠倒或质量很低,模型也可以解读它们。通过使用工具,模型甚至可以实时操作图像 —— 旋转、缩放或将其作为推理过程的一部分进行变换
OpenAI o3 和 o4-mini 可以完全访问 ChatGPT 中的工具,以及通过 API 中的函数调用使用开发者自己的自定义工具。OpenAI 称,这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以快速生成详细且深思熟虑的答案,通常在不到一分钟内完成。
收藏者
0
被浏览
61

5 个回答

zke LV

发表于 昨天 12:00

今天早上,简单玩了几把,在Poe上。主要测了一下常识。
o4-mini  是我见过最离谱的模型,这不是出现幻觉了,简直是幻觉本体,已经是张冠李戴了。 不要用,会不幸。  日用首选Gemini 2 FT/豆包,豆包幻觉比2FT高点,但知识密度更高,看你任务需求。
(我补充一下,o4-mini有中文降智的现象。)
o3速度快得离谱,我发现它没思考。表现正常,在常识方面就是一个普通模型,语言能力比Gemini 差一截。(没有全面超越Gemini 2.5 Pro)
硬任务还没测。 目前,我还是最喜欢Gemini 2.5P。考虑到o3的价格,建议主力还是Gemini,如果解决不了,再尝试一下o3。
据说Gemini下周又要更新了。OpenAI真是压力山大。在Google的重压之下,OpenAI感觉已经出现了裂痕。

Zed888 LV

发表于 昨天 12:12

这次不仅有o3,还有下一代推理模型o4-mini。它们首次实现了「用图像思考」,堪称视觉推理的巅峰之作。
如同AI智能体,两款模型在不到1分钟内,自主判断并组合运用ChatGPT内置工具,生成了详尽周全的答案。
其中包括,搜索网页、用Python分析上传的文件及数据、对视觉输入进行深度推理,乃至生成图像。
在Codeforces、SWE-bench、MMMU等基准测试中,o3刷新SOTA,不论是在编程、数学、科学,还是在视觉感知领域都树立了新标杆。
尤其是,对于图像、图表、图形分析,o3表现尤为突出,能够深入挖掘视觉输入的细节。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-1.jpg

在Codeforces中,新模型得分均超2700分,在全球参赛者中排名前200名
用奥特曼的话来说,「接近或达到天才水平」。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-2.jpg


不过,这个智力的代价是,需要投入o1十倍以上的算力。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-3.jpg


相较于满血版o3,o4-mini则以小巧高效、高性价比的特点脱颖而出。
在AIME 2025测试中,o4-mini配合Python解释器取得了99.5%高分,几乎完美拿下了这项基准测试。
而且,在数学、编程、视觉任务,以及非STEM领域,它的性能均优于o3-mini。
此外,o4-mini支持远超o3的使用额度,是高并发场景最优选。
总而言之,o3和o4-mini都非常擅长编码,由此OpenAI还开源了一个可在终端运行的轻量级编程 AI 智能体——Codex CLI。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-4.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-5.jpg


从今天起,ChatGPT Plus、Pro和Team用户将第一时间体验到o3、o4‑mini和o4‑mini‑high,它们将取代o1、o3‑mini和o3‑mini‑high。
同时,这两款模型也将通过Chat Completions API和Responses API,向所有开发者提供。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-6.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-7.jpg


推理模型,首次会用工具了



直播演示中,Greg先上了一个价值——有些模型就像是质的飞跃,GPT-4是其中之一,今天o3/o4-mini同样是。
他表示,o3让他和OpenAI的同事见到了AI大模型能完成「从未见到的事」,比如,它自己就提出了一个很棒的系统架构想法。
这两款模型真正令人惊讶的地方,它们不仅仅是模型,更是一个「AI系统」。
它们跟之前那些推理模型最大的区别,就是首次被用来训练各种工具。它们会在CoT中使用这些工具来解决难题。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-8.jpg


人类最后考试中,o3模型足以媲美Deep Research表现,而且速率更快
为了攻克了一个复杂难题,o3曾连续使用约600次工具调用。它们一次性生成的代码片段,真正在代码库发挥效用。
Greg表示,自己最珍视的一点,就是它们的软件工程能力:它们不仅能编写一次性的代码,而且能真正在真实的代码库中工作!
比如,它在浏览OpenAI代码库方面,就比Greg做得更好。这就是它极其有用的地方。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-9.jpg


而且,在指令跟随、智能体工具使用评估中,与工具结合的o3和o4-mini准确性是最高的。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-10.jpg


外部专家评估显示,o3在处理真实世界任务时,严重错误率比o1还降低了20%。
之所以有如此大的进步,正是因为RL中持续的算法进步所驱动的。用Greg的话说,引擎盖下最令人惊叹的是,目前它还仍然是预测一个token,然后加入一点RL的AI,就已经做到这个地步。

那么,在实操过程中,o3是如何结合使用工具解决复杂任务的呢?
多模态团队研究员Brandon McKinzie上传了一张2015年完成的一个物理实习海报,让ChatGPT估算质子同位标量电荷的数量。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-11.jpg


o3开始推理的同时,逐一分析图片中内容,并确定Brandon提出问题的正确数量。实际上,海报截图中并没有覆盖最终结果。
于是,o3便开始联网搜索查找最新的估算值,几秒钟内读完数十篇论文,节省了大量时间。
结果显示,模型计算出了一个未经归一化的值,并且乘以一个特定常数,又可以重新归一化,最终结果与实际比较接近。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-12.jpg


后训练团队研究员Eric Mitchell为ChatGPT开启了记忆功能, 然后让o3去查找新闻,而且是与自己兴趣有关的内容,同时还要足够冷门。
o3基于已有的了解——潜水和演奏音乐,主动思考并调用工具,找出了一些相关的有趣内容。
比如,研究人员录制了健康的珊瑚声音,并用扬声器播放录音,加速了新珊瑚和鱼类定居。
同时,它还能绘制出可视化的数据,便于直接放入博客文章当中。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-13.jpg


也就是说,无论o3是用于前沿的科研领域,还是将模型集成到日常工作流中,都会非常有用。
在解决AIME数学竞赛问题时,o3被要求观察2x2方格网格,并计算出满足约束条件的颜色方案数量。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-14.jpg


它首先生成了一个暴力程序,然后用Python解释器运行,并得到了正确答案,即82。
即便如此,它的解题过程并不优雅简洁,对此,o3自动识别后并尝试简化解决方案,找到更聪明办法。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-15.jpg


它还会自动核查答案的可靠性,甚至最后给出了文字解决方案,方便向人类解释。
让研究人员惊讶的是,训练o3过程中并没有使用类似策略,也没有要求简化,都是AI自主学习完成的。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-16.jpg


在编码任务中,研究人员让o3-high找出一个名为symbols软件包的错误。
首先,模型会主动检查指令中,所说的问题是否存在,并尝试了解代码储存库的概况。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-17.jpg


然后,它发现一可以mro的解释类继承信息的Python结构,基于已有的世界知识,找到了问题所在。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-18.jpg


最后,o3通过浏览互联网,找到了最优的解决方案——apply_patch。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-19.jpg


就推理成本来看,o3和o4-mini不仅是迄今为止最智能模型,相较于o1和o3‑mini,更在效率和成本控制方面树立了新标杆。
在2025年AIME数学竞赛上,o3推理成本和性能全面优于 o1,同样地,o4-mini成本-性能也全面优于o3‑mini。
所以,如果你需要一个小而快的多模态推理模型,o4-mini将是极好的选择。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-20.jpg


o3和o4-mini能够自主选择工具、计划方法解决问题,无论是数学、商业、科学、体育还是视觉推理都没问题。
比如,在解决体育问题时,o3能联网获取最新数据,考虑了最近一个赛季和2022-23年联赛ERA略升后回归正常的情况。
o1给出的数据是大概值,略有偏差,不够精确,而且它错误地认为偷垒增加完全是因为投球计时器,忽略了基地垫扩大和限制牵制次数这些更直接的原因。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-21.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-22.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-23.jpg




OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-25.jpg

左右滑动查看




用图像思考,视觉推理新巅峰



更引人注目的是,o3和o4-mini在视觉推理上全面超越前代,成为o系列最新的视觉推理模型。
它们通过在思维链(CoT)中用图像进行推理,实现了视觉感知的重大突破。
OpenAI首次实现了模型在其思维链中用图像进行思考——而不仅仅只是看图。
与早期的OpenAI o1类似,o3和o4-mini能在回答前思考更久,在回答用户前内部会生成很长的思维链。
不仅如此,o3和o4-mini可以在思考过程中「看」图片。这种能力是通过工具处理用户上传的图像来实现的,比如进行裁剪、放大、旋转等简单的图像处理。
更厉害的是,这些功能都是原生的,不需要依赖额外的专业模型。
在基准测试中,这种用图像思考,无需依赖网络浏览的能力,碾压了前代多模态模型的性能。
在STEM问答(MMMU、MathVista)、图表阅读与推理(CharXiv)、感知基元(VLMs are Blind)以及视觉搜索(V*)等领域,o3和o4-mini均创下了SOTA。
特别是,在 V*基准测试上,两款模型以96.3%准确率几乎攻克了这项挑战,标志着视觉推理技术重大飞跃。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-27.jpg


ChatGPT增强的视觉智能,能更彻底、精准、可靠地分析图片,帮你解决更棘手的问题。
它能将高级推理与网页搜索、图像处理等工具无缝结合,自动放大、裁剪、翻转或优化你的图片,哪怕照片不完美也能挖掘出有用信息。
比如,你可以上传一张经济学作业的照片,得到一步步的解答,或者分享一个程序报错的截图,快速找出问题根源。
这种方法开启了一种新的测试时计算扩展方式,完美的融合了视觉和文本推理。
这体现在它们在多模态基准测试中的顶尖表现,标志着多模态推理迈出了重要一步。



OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-28.jpg



视觉推理实战



用图像思考可以与ChatGPT更加轻松的互动。
你可以直接拍张照片提问,不用担心物体摆放问题——不论文字是不是倒的,或者一张照片里有多道物理题。
即使东西乍一看不太清楚,视觉推理也能让模型放大看清细节。
比如,一个放在桌子上几乎与视线平行的笔记本,上面有两行模糊的字,人看上去也很难直接认出来。
而ChatGPT可以将图片放大查看,发现字是倒着的后,还将其旋转过来,最终成功将其给认了出来。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-29.jpg

上下滑动查看


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-30.jpg

上下滑动查看


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-31.jpg

上下滑动查看


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-32.jpg

上下滑动查看

OpenAI最新的视觉推理模型能跟Python数据分析、网页搜索、图像生成等工具配合,创意又高效地解决更复杂的问题,为用户首次带来了多模态智能体验。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-33.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-34.jpg


编程智能体Codex CLI全开源



接下来,OpenAI表示,将展示一些codex遗产的延续,发布一系列应用程序,而它们,将定义编程的未来。
除了新模型之外,OpenAI还开源了一项新的实验性工具:Codex CLI,一个可在终端运行的轻量级编程AI智能体。
它的作用,就是在需要的地方安全地部署代码执行。
它直接在本地计算机上运行,旨在充分发挥o3和o4-mini这类模型的强大推理能力,并将很快支持GPT-4.1⁠等更多模型的API调用。
通过向模型传递屏幕截图或低保真草图,并结合访问本地代码的权限,就能在命令行中体验到多模态推理的强大功能。
同时,他们也启动一项100万美元的资助计划,用以支持使用Codex CLI 和 OpenAI 模型的项目。
GitHub项目一经发布,Codex CLI已斩获3.3k星,可见响应度之高。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-35.jpg


项目地址:https://github.com/openai/codex


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-36.jpg


现场,OpenAI演示人员参考了网上的帖子,使用Codex和o4 Mini做了一个很酷的图片转ASCII生成器。
只需先截一张图,拖进终端里,接下来就可以把它交给Codex。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-37.jpg


令人惊叹的是,你可以实际看到它在思考,还可以直接运行工具。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-38.jpg


完成后,Codex创建了一个ASCII HTML文件,甚至还生成了一个可以控制分辨率的滑块。
也就是说,从此电脑上的任何文件,以及你正在处理的代码库,都可以放进Codex了!
在现场,研究者们还成功添加了一个网络摄像头API。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-39.jpg




Scaling强化学习,依旧有效



在OpenAI o3的整个研发过程中,研究者观察到一个现象:大规模强化学习同样遵循着GPT系列预训练时显现的规律——即「投入越多的计算资源,就能获得越好的性能」。
他们循着这条Scaling路径,这次将重点放在强化学习(RL)上,把训练计算量和推理阶段的思考量(或称推理计算量)都提升了一个数量级,结果依然观察到显著的性能提升。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-41.jpg


技术报告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
这验证了只要给模型更多时间去「思考」,它的表现就会持续提高。
相较于前代o1,o3在相同延迟和成本下展现出更高的性能。更令人兴奋地是,当允许思考更长时间,其性能还会继续攀升。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-42.jpg


此外,OpenAI通过强化学习训练,让o3和o4-mini掌握了工具使用的智慧——不仅学会「如何用」,更懂得「何时用」。
它们不仅能完全访问ChatGPT内置的工具,还能通过API中的函数调用功能接入用户自定义的工具。
这种能力让模型在开放式场景时,更加游刃有余,尤其是在需要视觉推理和多步骤工作流的复杂任务中。
而且,从前面诸多案例中,我们已经对模型工具调用的能力,获得了关键一撇。
那些提前拿到内测资格的大佬们,纷纷被o3震惊了。
尤其是在临床和医学领域,它的表现堪称现象级。无论是诊断分析还是治疗建议,仿佛出自顶尖专家的手笔。


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-43.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-44.jpg


不论是加速科学发现、优化临床决策,还是推理跨领域的创新,o3正成为这场变革的主导者。

bibi_im286 LV

发表于 昨天 12:24

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-1.jpg

OpenAI昨晚终于推出了新一代推理模型o3和o4-mini,其中o3相比去年年底预览版各方面能力有明显提升,成为最强推理模型,而o4-mini针对快速、低成本的推理进行优化的小模型。o3和o4-mini主要亮点总结如下:

  • o3在编程、数学、科学以及视觉理解等方面提升显著,大部分性能已经略超过谷歌最强的推理模型Gemini 2.5 Pro但o3的API价格要比Gemini 2.5 Pro贵的多(输入价格:$10.00 / 1M tokens vs $1.25~2.50 / 1M tokens,输出价格:$40.00 / 1M tokens vs $10.00~15.00 / 1M tokens)。
  • o4-mini的性能略差于o3,但是性价比更高,API价格约只有o3的1/10(输入价格:$1.100 / 1M tokens,输出价格:$4.400 / 1M tokens)。
  • o3和o4-mini首次支持视觉推理:直接将图像整合到思考过程,而且借助工具的使用,模型可以在推理过程中操作图像(裁剪、旋转、放大或转换等)。o3也在多模态理解基准测试MMMU上达到了新的SOTA。
  • o3和o4-mini的工具调用能力提升,模型能够像agent一样使用并结合ChatGPT中的每一个工具,这包括搜索网络、用Python分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。
  • o3目前不对免费用户开放,只有ChatGPT Plus、Pro和Team用户可以使用,而o4-mini可以免费用。
这里我整合了OpenAI和谷歌的官方评测结果,对o3、o4-mini以及Gemini 2.5 Pro做一个直观的对比,可以看到o3在大部分基准测试上已经超过之前最强的推理模型Gemini 2.5 Pro。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-2.jpg

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-3.jpg


https://www.zhihu.com/video/1896115759480038947

一位OpenAI的研究员对o3的评价是:
当o3完成训练,我们得以试用时,我第一次忍不住想称一个模型为通用人工智能(AGI)。尽管它仍然不是完美的,但这个模型将在99%的智力测试中击败我、你以及99%的人类。人们开始看到隧道尽头的曙光。
OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-4.jpg

下面是o3和o4-mini在数学、科学、编程、多模态、指令遵循以及工具调用等各个基准测试上的性能:

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-5.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-6.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-7.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-8.jpg

o3和o4是通过进一步扩展强化学习来提升性能,而且在o3的开发过程中,OpenAI观察到大规模强化学习展现了与GPT系列预训练中观察到的相同的“更多计算资源=更好性能”的趋势。这次OpenAI在训练计算和推理时的思考方面都推动了一个数量级的增长(10x),但仍然看到了清晰的性能提升,这验证了模型的性能在它们被允许思考得更多的时候会持续改善。在与OpenAI o1相同的延迟和成本下,o3提供了更高的性能,而且如果让它思考得更久,它的性能会持续攀升。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-9.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-10.jpg

简单来说,就是扩展强化学习训练,模型整个性能曲线上移,而扩展推理时思考长度,模型性能逐渐提升。而这次的o3和o4-mini根据推理时思考成本,也分为low、medium和high三个档次。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-11.jpg


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-12.jpg

除了推理性能提升,这次o3和o4-mini解锁的一个新能力是视觉思考。在对图像的推理过程,模型可以原生地调用工具来操作图像,比如自动放大、裁剪、翻转或增强你的图像以从不完美的照片中提取信息。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-13.jpg

比如下面这个例子,需要模型识别图片中桌子上笔记本的文字,这里模型会通过视觉分析,找到笔记本文字位置,并通过裁剪和旋转来实现精准的文字识别。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-14.jpg

而且视觉推理还可以与Python数据分析、网络搜索、图像生成等其他工具协同工作,来解决更加实际的问题。比如下面的例子是调用了联网搜索来查找活动日期。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-15.jpg

虽然o3和o4-mini的视觉推理能力很强,但是也存在一些局限性,比如模型可能会执行过长的推理链,模型依然可能出现基本的感知错误,而且模型回答问题也存在不稳定,就是在多次尝试解决一个问题时,模型可能会尝试不同的视觉推理过程,其中一些可能导致错误的结果。
除了视觉推理,o3和o4-mini的另外一大亮点是工具调用能力的提升,这让构建agent变得更加容易。o3和o4-mini不仅可以调用ChatGPT内工具,同时也能通过API中的函数调用访问你自己的自定义工具。模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以快速产生详细且深思熟虑的答案,这通常在不到一分钟的时间内,并以正确的输出格式呈现。例如,用户可能会问:“与去年相比,今年夏天加利福尼亚的能源使用情况如何?”模型可以搜索网络以获取公共事业数据,编写Python代码来构建预测,生成图表或图像,并解释预测背后的关键因素,将多个工具调用串联起来。推理能力使模型能够根据遇到的信息做出反应并灵活调整。例如,它们可以在搜索引擎的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。这个能力的提升对于实际应用的价值很大。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-16.jpg

整体上我觉得,OpenAI这次发布o3和o4-mini算是扳回来一局,下面就期待GPT-5了。

补充一个之前测试GPT-4.1的例子,这次o3也是没做对,但是分析以及结论也不能说错:

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-17.jpg

但是o4-mini倒是做对了:

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-18.jpg

断舍离 LV

发表于 昨天 12:34

短的结论:是对o3 mini的精益求精,而非智能跃迁
基本信息:

  • 成本:32块每百万(和前代o3mini相同)
  • 速度:约10字每秒(计入了推理耗时,不准确)
  • 平均长度:约600字(包含推理过程约20000字)
  • 平均耗时:106秒

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-1.jpg


测试方式:参见https://zhuanlan.zhihu.com/p/32834005000
这次测试基于4月题目,已经增加#34 & #35 2道Hard题,所以所有模型的分数相比3月有变动。

o4 mini依然不输出推理过程,从usage返回结果来看,使用high档位,其推理消耗大概11000 token,约20000字。和先前grok3 mini的输出长度相当,显著高于其他推理模型。如果用medium档位,则消耗降至约8000token,和先前测过的o3 mini medium相当,可见,在推理token分配方面,o4 mini是没有改变。
但从最终输出来看,o4 mini更加惜墨如金,平均长度仅600字,远低于o3 mini的2000字。大部分问题,o4 mini仅给出非常简单的理由和答案,几乎等同于学生练习册后的参考答案:证明略。不确定这样的输出,能否满足一些场景的所需。这样简略的回答,也大幅提升了笔者进行模型分析的难度。
与o3 mini, gemini 2.5 pro相对,有如下优缺点:

优势:

  • 相比o3 mini,基本没有劣化。一些题目先前只有o1正确,现在也继承到了o4 mini。如#24找规律这道人类直觉问题。如#35几何拼图问题,o3 mini只能找到1组解,而o4 mini可以找到1组解+1个正确思路。当然这离完整的4组解还很远。
  • 相比gemini 2.5 pro,o4 mini在涉及大范围上下文记忆的问题上,表现尤其好,比如#4拧魔方,需要记住所有已进行操作,此题o4 mini是极少数可以满分的模型,而gemini 2.5 pro会因为记错了其中一步,只能拿一多半分。此外像#34地铁换乘问题,也需要大模型能记住路线上总计300多个站点的位置关系,gemini 2.5 pro和大部分推理模型类似,只能在最简单的兜底case上拿分,而o4 mini额外算对了2次换乘的case。
  • 题目满分率67%,高于o3 mini的58%,gemini 2.5 pro的57%。是目前最高。同时o4 mini的稳定性也很好,中位分仅低4%。有超过3/4的题目,可以在3pass中都输出一致结果。同样是目前最高。


劣势:

  • o4 mini在应对题目中误导信息时,表现反而不如低位模型。如#32干支纪年推算,o4 mini就直接使用了误导信息,导致所有推算都出错,而先前o3 mini和gemini 2.5 pro是可以算对(也是少数能算对的模型)。或许是o4 mini加强了指令遵循,导致反而不能分辨“错误指令”。如#16旅游规划亦如是,o4 mini正确率不如grok3 mini。
  • 少量字符幻觉,如#25算24点,也会低概率重复使用数字。#9单词缩写和#18字符迷宫,同样无法稳定拿到满分。当然,目前还没有模型可以在所有考察字符幻觉的题目上稳定满分,不用苛求o4 mini做到。

总评:
总体来看,o4 mini大体还是o3 mini的继续打磨,纵使无法窥知其推导逻辑,但从仅有的文字中可知许多问题的回答思路与o1/o1 mini/o3 mini一脉相承。一方面,o系列的回答逻辑比较像人,如一些考察人类直觉的问题,o系列可以直达问题要害,给出正确思路。但另一方面,对于更复杂的问题,o系列表现依然是暴力求解,而人类因为算力有限,反而会把精力优先分配到寻找思路中,而且从一开始就盲目计算。
考虑到o4 mini的价格和o3 mini相当,输出速度,推理token分配也近似,笔者建议在实际应用场景中直接替换掉o3 mini。

devil0 LV

发表于 昨天 12:47

最大的亮点应该就是“Thinking with images”图像推理了,你看我给GPT-o3上传了一张北京的地铁路线图,然后问“怎么从天安门到草桥”,它足足思考了5分25秒。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-1.jpg

我截取了一部分的思考过程,你可以看到它把一整张大的图片通过局部放大,切分等操作进行不同程度上的分析

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-2.jpg

甚至还用上了Python的一些库,才解决了这个问题。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-3.jpg

应该是现在top级别的视觉推理模型了,比起上一代的提升非常明显。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-4.jpg

但是也能看得出,OpenAI应该是面临非常大的客户流失了,你看也就3个星期左右,先后发布了GPT4o图像生成新模型,GPT4.1的API,以及今天发布的OpenAI o3和o4-mini模型。
我现在已经能用o3和o4的俩模型了,但是你看ChatGPT的所有网页端可用模型,非常的乱,有要退休的,有计划退休的,还有o系列的。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-5.jpg

更绝的还有GPT-4o mini这个模型,非常容易和o4-mini混淆,真不如直接出一个o5模型,反正之前也没o2。
最新的三个模型比较就在这张图里了,挺混乱的,o系列主打推理,GPT-4.1就是升级后的基础大模型GPT4。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-6.jpg

今天发布的模型有俩: o3o4‑mini 两款 推理大模型:前者定位为当前最强通用推理模型,后者则是迄今最具性价比的小型版本;二者均支持多模态输入、自动调用 ChatGPT 工具链,并将在未来几周全面取代旧版 o1 与 o3‑mini 系列。
o 系列 主打“先思考再作答”的长链推理策略,o3 与 o4‑mini 是该路线的第二代产品,进一步缩短了思考‑响应时延并扩大了工具自治范围。
o3:旗舰级推理与多模态

关键升级


  • 更长推理链:可在复杂逻辑与跨学科问题上生成更完整、透明的中间推理。​
  • 图像推理能力:首次允许将草图、流程图或摄影图片直接作为上下文,模型可在内部对图片执行缩放、旋转等操作后整合进结论。​
  • 全工具自治:o3 能自动决定何时调用 Web 搜索、Python、文件解析及图像生成等工具,无需显式提示即可完成多步骤任务。​
o4‑mini:高效小模型的新天花板


OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-7.jpg

推理能力不错,速度快,价格为输入1.1美元输出4.4美元,可处理多模态内容,价格和o3-mini一致,那肯定没必要继续用o3-mini了。
它还提供了一些视觉推理案例,比如这个从复杂图片中定位问题,然后再识别手写字体,最后完成解题,确实很惊艳。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-8.jpg

并且这个视觉推理和网络搜索已经集成的很不错了,这个案例就是识图+网络搜索。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-9.jpg

还有视觉推理+python代码走迷宫,实现的完成度也很高。

OpenAI 发新模型 o3 和 o4-mini,能够「思考」图片,这意味着什么?该模型有何强大之处?-10.jpg

您需要登录后才可以回帖 登录 | 立即注册