bingfeng009 LV
发表于 2025-4-8 11:11:28
这里OpenAI提到的o3以及GPT-5之前已经是发了预告,唯一的新品是o4-mini。
o3其实在去年“OpenAI 12天活动”的第12天已经发布了。o1是第一个基于强化学习训练的大型推理模型,而o3进一步扩展了(scaling)强化学习来提升模型效果。
o3在编程以及数学方面,相比o1均有明显提升。比如,o3在真实世界编程基准SWE-bench Verified上实现了71.7%的准确率,比o1高出20%;o3在Codeforces上的得分已经达到了2727 ELO,在全球排名中名列第175位,这已经超过了网站中的99.9%的人类选手。
而且o3还在一个ARC-AGI测试上取得了突破。在 10,000 美元计算限制下的半私有测试集上取得了突破性的75.7% 的成绩,取得了公共排行榜第一。而在高计算配置下,o3 得分为87.5%。
OpenAI 最强推理模型 o3 发布,AGI 测试能力暴涨,会对哪些领域带来影响?不过o3一直是没有对外正式发布,但在今年1月底上线了o3-mini[1]。
OpenAI 上线推理模型 o3-mini,首向免费用户开放推理,体验如何?有何技术亮点和新应用场景?o3-mini按照推理强度(推理思维链长短)分为low、medium和high三档,其中o3-mini low效果超过o1-mini,o3-mini medium性能和o1相当,而o3-mini high超过o1。
所以o3-mini应该是OpenAI线上最强的推理模型,大号版本o3应该能超过它。而我比较期待的是o系列的下一个版本o4,看来OpenAI还是先推出mimi版本o4-mini,o4如果能继续提升明显,那么说明推理模型的test-time inference scaling还是有搞头的。
而对于GPT-5,今年2月份的时候奥特曼也已经透露过了。OpenAI在发布GPT-4.5之后会发布GPT-5:In both ChatGPT and our API, we will release GPT-5 as a system that integrates a lot of our technology, including o3. We will no longer ship o3 as a standalone model OpenAI 放王炸,将发布整合多项技术的 GPT-5,并免费无限使用,该模型有哪些技术亮点?当时的说法,GPT-5会集成OpenAI很多技术,包括o3,而且说o3不会作为一个单独的模型发布。
但是现在看来,o3应该是提前于GPT-5单独发布。而且GPT-5可能比预期更好,但基本确定是延迟发布了。
不过之前奥特曼说GPT-5会直接集成到ChatGPT了,没有订阅ChatGPT会员的用户也可以免费使用。如果真正推出的时候会是免费的,效果强于现在免费的GPT-4o的话,那么就很有用了。
https://www.zhihu.com/video/1891866596919715006 |
|