短的结论:是对o3 mini的精益求精,而非智能跃迁
基本信息:
- 成本:32块每百万(和前代o3mini相同)
- 速度:约10字每秒(计入了推理耗时,不准确)
- 平均长度:约600字(包含推理过程约20000字)
- 平均耗时:106秒
测试方式:参见https://zhuanlan.zhihu.com/p/32834005000
这次测试基于4月题目,已经增加#34 & #35 2道Hard题,所以所有模型的分数相比3月有变动。
o4 mini依然不输出推理过程,从usage返回结果来看,使用high档位,其推理消耗大概11000 token,约20000字。和先前grok3 mini的输出长度相当,显著高于其他推理模型。如果用medium档位,则消耗降至约8000token,和先前测过的o3 mini medium相当,可见,在推理token分配方面,o4 mini是没有改变。
但从最终输出来看,o4 mini更加惜墨如金,平均长度仅600字,远低于o3 mini的2000字。大部分问题,o4 mini仅给出非常简单的理由和答案,几乎等同于学生练习册后的参考答案:证明略。不确定这样的输出,能否满足一些场景的所需。这样简略的回答,也大幅提升了笔者进行模型分析的难度。
与o3 mini, gemini 2.5 pro相对,有如下优缺点:
优势:
- 相比o3 mini,基本没有劣化。一些题目先前只有o1正确,现在也继承到了o4 mini。如#24找规律这道人类直觉问题。如#35几何拼图问题,o3 mini只能找到1组解,而o4 mini可以找到1组解+1个正确思路。当然这离完整的4组解还很远。
- 相比gemini 2.5 pro,o4 mini在涉及大范围上下文记忆的问题上,表现尤其好,比如#4拧魔方,需要记住所有已进行操作,此题o4 mini是极少数可以满分的模型,而gemini 2.5 pro会因为记错了其中一步,只能拿一多半分。此外像#34地铁换乘问题,也需要大模型能记住路线上总计300多个站点的位置关系,gemini 2.5 pro和大部分推理模型类似,只能在最简单的兜底case上拿分,而o4 mini额外算对了2次换乘的case。
- 题目满分率67%,高于o3 mini的58%,gemini 2.5 pro的57%。是目前最高。同时o4 mini的稳定性也很好,中位分仅低4%。有超过3/4的题目,可以在3pass中都输出一致结果。同样是目前最高。
劣势:
- o4 mini在应对题目中误导信息时,表现反而不如低位模型。如#32干支纪年推算,o4 mini就直接使用了误导信息,导致所有推算都出错,而先前o3 mini和gemini 2.5 pro是可以算对(也是少数能算对的模型)。或许是o4 mini加强了指令遵循,导致反而不能分辨“错误指令”。如#16旅游规划亦如是,o4 mini正确率不如grok3 mini。
- 少量字符幻觉,如#25算24点,也会低概率重复使用数字。#9单词缩写和#18字符迷宫,同样无法稳定拿到满分。当然,目前还没有模型可以在所有考察字符幻觉的题目上稳定满分,不用苛求o4 mini做到。
总评:
总体来看,o4 mini大体还是o3 mini的继续打磨,纵使无法窥知其推导逻辑,但从仅有的文字中可知许多问题的回答思路与o1/o1 mini/o3 mini一脉相承。一方面,o系列的回答逻辑比较像人,如一些考察人类直觉的问题,o系列可以直达问题要害,给出正确思路。但另一方面,对于更复杂的问题,o系列表现依然是暴力求解,而人类因为算力有限,反而会把精力优先分配到寻找思路中,而且从一开始就盲目计算。
考虑到o4 mini的价格和o3 mini相当,输出速度,推理token分配也近似,笔者建议在实际应用场景中直接替换掉o3 mini。 |
|