gotoback LV
发表于 2025-3-27 20:32:38
在全球数百位专家设计、专注于前沿知识和推理的Humanity's Last Exam中,Gemini 2.5 Pro也获得了18.8%的最高得分。而OpenAI的o3-mini在该项目中得分为14%,DeepSeek-R1为8.6%。
Gemini 2.5 Pro在推理和知识、科学以及数学相关测试集中取得优异成绩。来源:谷歌
不过,谷歌并未放出Gemini 2.5 Pro与完整版OpenAI-o1、o3等模型在基准测试中的成绩对比。此外,在智能体编程评估基准SWE-bench verified中,Gemini 2.5 Pro的得分低于Claude 3.7 Sonnet。
Gemini 2.5 Pro在各项基准测试中的成绩。来源:谷歌
谷歌DeepMind首席技术官Koray Kavukcuoglu表示,Gemini 2.5代表了谷歌实现“更智能、更具有推理能力的AI”的重要一步。Kavukcuoglu写道:“现在,有了Gemini 2.5,我们通过将显著增强的基础模型与改进的后训练相结合,达到了新的性能水平。”
演示视频显示,Gemini 2.5 Pro可以具有强大的编程能力,例如,其可以根据提示词创建互动式图表、将复杂数据进行可视化处理,或开发兼具设计性和可玩性的小游戏。 |
|