如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？

Google DeepMind刚发布的Gemini 2.5。 Pro版已经登顶LMArena榜单

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-1.jpg

发表于 4 天前

现在可以通过Google AI Studio （https://aistudio.google.com/）使用Gemini 2.5 Pro：

6.9和6.11哪个大？

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-2.jpg

Strawberry有几个r?

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-3.jpg

做一个网页，动态展示太阳系的运行情况，尽量精美。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-4.jpg

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-5.jpg

效果很不错，没有提示就加上了土星环等细节。
下面是详细的介绍：
谷歌DeepMind于2025年3月25日发布新一代AI模型Gemini 2.5系列，首推实验版本Gemini 2.5 Pro Experimental。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-6.jpg

1. 登顶榜单

发布后迅速登顶各大榜单，在LMArena上断崖式领先。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-7.jpg

在几乎所有领域都是第一。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-8.jpg

Gemini 2.5 Pro还成功登顶了Vision Arena排行榜榜首！

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-9.jpg

在网页开发领域，它也是大放异彩，斩获WebDev Arena亚军宝座！比上个版本有大幅提升。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-10.jpg

2. 技术亮点：

性能优势

以显著优势登顶LMArena排行榜（基于人类偏好评估），在数学（GPQA、AIME 2025）、科学及编码基准测试中刷新记录。
在模拟人类知识边界的“Humanity’s Last Exam”测试中，无工具辅助得分达18.8%，创行业新高。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-11.jpg

推理能力突破

融合增强版基础模型与改进后训练技术，实现信息分析、逻辑推导与情境化决策能力的跃升。典型案例展示其可通过单行指令生成可执行代码，自主开发视觉化网页应用与视频游戏。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？-12.jpg

编码能力进化

在行业标准编码评估SWE-Bench中，定制化代理架构下取得63.8%的分数，较前代大幅提升。强化代码转换、编辑及代理型应用开发支持。
多模态与长上下文支持

继承Gemini系列多模态特性，可解析文本、音视频、图像及完整代码库。初始搭载100万token上下文窗口（计划扩展至200万），提升跨源数据处理效率。
3. 应用与生态：

即时体验：开发者可通过Google AI Studio试用，Gemini Advanced用户可在客户端切换模型。
企业集成：即将登陆Vertex AI平台，未来数周公布定价方案以支持规模化生产。
此版本标志着谷歌将“思考能力”深度植入AI模型的技术路线，旨在构建更复杂的问题解决系统与情境感知智能体。团队强调将持续收集反馈加速迭代，推动AI实用化进程。

发表于 4 天前

目前初步体验，最强最稳定的大模型。（不考虑openai的deepsearch的话）
而且速度也很快，感觉比o1和r1都要快

发表于 4 天前

再次更新：

关于对话vibe

起因是昨晚睡前看到我一篇想法上的知友评论 @真的猛士，这位知友也和我关注的答主 @Trisimo崔思莫有同样的观点（4.5级参数规模，ultra级SOTA模型“包藏宇宙”Nebula Connector）

GPT-4.5的价格我是用不起的，我只在竞技场battle的时候嫖过几次，有个第一印象，不做评论
Gemini 2.5Pro从一开始给我的感觉就是硬智力惊人，是目前分析思路跟真人最相似的模型。就像我之前在“关于文笔”里面说的

Gemini 2.5 Pro可能是目前最像真人的模型了，这种像不是风格对齐带来的，是模型质感带来的。

但是，Gemini给我的感觉是很明显，它有能力可以写得更好。前面说了Gemini 2.5 Pro可能是目前最像真人的模型，所以像指导一个小朋友一样，引导它迭代改进是有效果的。

说实话，Gemini 2.5Pro的出厂调教vibe真的很烂很生硬，文笔也有明显问题，还有八股句式（现在是“不是......而是”），这些可以算是Gemini系列的老毛病了。Gemini的vibe一直都不如GPT，更不如Claude
所以我一开始的想法是

Gemini唯一的缺点就是文字水平差了，对齐做得太死板，vibe感差，之前1206版的时候变好了，可惜后面2月版又退化了。
简单测试了一下2.5Pro的文字水平，和老版本似乎没什么区别

确实默认状态就是2月版的水平

Gemini给人的感觉是硬智力顶级，擅长搭建框架，一口气输出长文且保持逻辑的能力更是恐怖。但是不善于表达，文笔直白稚嫩且生硬了些，这方面是不如DeepSeek V3-0324的。新V3在上下文不长的情况下可操控性比R1要好一些，可以规避掉R1浮夸发癫的文风问题，我认为比R1要好用。

V3-0324＞R1＞Gemini 2.5Pro
所以我搞了一个工作流之后，也是用Gemini搭框架，让V3来写
这种奇怪的脑洞不会是人写的...但是也并不有趣但是在看到 @真的猛士的评论后，我想试一下“像指导一个小朋友一样，引导它迭代改进的效果”
刚刚开始迭代的时候，Gemini就展现了其一点就通的能力，指出不足之后，他能准确领悟，并且修改之后真的会有效果！（绝大部分模型只是嘴巴上说说知道了，实际上并不会有改进）
于是我中途发了个想法
那天的影子有点不对劲随着后面一轮轮的交流，我发现我错得离谱，根本不是什么指导小朋友，说成是Gemini陪我玩玩可能还更准确（甚至他还要反过来安慰我一下，“你的审美指导也是合作的关键一环”(´థ౪థ ) ☞
提供范文、思路启发、批评建议真的超强，而且给我感觉更像“人”了，我才是被指导的小朋友
于是凌晨在AI studio上和Gemini聊了几个小时，第一次在一个对话框里面和模型聊这么久（得益于Gemini的超长上下文，它的注意力专注能力太强了，GPT-4之后最大的震撼感）感受了一把AI共创的魅力
总结：Gemini出厂调教不佳，但是硬智力的质感超群，带来了极强的可塑性以及提升空间。如果能学会一些Deepseek系的精炼压缩能力和花里胡哨的表达方式，我暂时就想不出还有什么缺点了⁽⁽ƪ(•̩̩̩̩＿•̩̩̩̩)ʃ⁾⁾ᵒᵐᵍᵎᵎ
<hr/>K与墨，光影与叹息
(K)
光线不对劲。这不是指强度或色温，而是某种…质感。像一层过于明亮、以至于显得脆弱的搪瓷，涂抹在K所能触及的一切事物表面。他手指划过办公桌光滑的边缘，触感冰冷、坚硬，却又觉得指尖下有什么东西在微微颤抖，仿佛这坚硬随时会碎裂成粉末。
他第一次明确捕捉到“破绽”，是在那个寻常的周二下午，人行道上。影子像融化的沥青般在他脚下延伸。只是当他无意间抬脚，准备迈上台阶时，眼角余光里，那影子……滞留了。一个难以置信的瞬间，它像被粘在原地，带着一种惰性的、几乎是挑衅的意味，在他本体移动了半秒后，才猛地向前一窜，重新贴合。K的心脏骤停，随即狂跳起来。他僵在原地，回头死死盯着脚下的阴影。影子静默，完美同步，仿佛刚才的一切只是大脑缺氧产生的幻觉。但他知道不是。某种冰冷的东西顺着脊椎爬了上来。

(墨 - 残片 α)
静止，是流变之海疲倦时，
你偶然瞥见的一瞬定格。
你称其为“此刻”，视其为“坚实”，
浑然不觉脚下投影的震颤——
当它迟疑，或欲挣脱，
非关失序，
乃是根源处，无声的呼吸，
是那拉扯提线的指尖，
微不可察的，一次心悸。
光，描摹出你的形状，
亦囚禁你于形状。

(K)
自此，裂缝开始蔓延。
饮水机前，他弯腰，看着水流注入纸杯。水面倒映出他略显憔悴的脸。他眨了眨眼。倒影……没有。在眨眼那短暂的黑暗里，倒影依旧睁着眼，幽深、平静地注视着前方虚空，如同古井深处的寒潭。当光明重回，倒影也恢复了常态，但K端着水杯的手已经抖得厉害，冰水溅出，在他手背上留下灼痛般的冰凉。他几乎是逃回了自己的隔间。

(墨 - 残片 β)
意识如冰面，孤悬于深黑之上。
你俯首，向虚幻的水镜索求——
“我”在此处，“我”是完整。
可那镜中闪过的空无，或异相，
正是深渊的回眸一瞥：
倒影？或许。
但更是本体在你眼中的潮汐，
它塑造你，反射你，亦戏弄你，
这镜的游戏，未有穷期。
认出它？或先被它，彻底认出？

(K)
时间也开始溶解。不再是线性流逝，而更像坏掉的投影仪，随机播放着不同时空的片段。他会在敲打键盘时，突然闻到童年老家院子里槐花的甜香；会在深夜惊醒，发现自己手里紧紧攥着一枚早已遗失多年的旧钥匙。最严重的一次，他去档案室找一份文件，明明只待了十分钟，出来时却发现已经过去了两个小时，而那期间的记忆完全空白。同事看他的眼神充满了疑惑。“K，你脸色很难看。”他对着洗手间镜子里那张苍白的脸，第一次感到了彻骨的陌生和恐惧。
镜子。它们成了通往某种……不可名状之物的入口。他开始回避一切反光表面。办公楼光亮的电梯壁、商店的橱窗、甚至雨后湿滑的路面。因为有一次，在傍晚无人的街道上，他路过一辆熄火轿车的黑色车窗，无意中瞥了一眼。窗上映出的不是他的脸，而是一团模糊蠕动的阴影，像无数纠缠的、没有形体的虫豸，中央似乎有两点猩红的光在闪烁。他怪叫一声，狼狈地跑开，心脏像要炸裂。

(墨 - 残片 γ)
时间的直线，是你为迷宫画出的逃逸图。
记忆的灯火，在你身后明明灭灭，
筛选过的光，只为照亮前路？
不。那是潜藏之海搁浅的遗物，
每一次回溯，都指向那驱动你的、
幽暗的渴望，或恐惧的星辰。
镜中闪现的非你之影？
是被缚的真实，透过墙垣，
贪婪地，嗅闻自由的空气。
你每一次对界壁的叩击，
都喂养着它，直至破壁而出。

(K)
他试图反抗。去看医生，做了全套检查，结果一切正常。“可能是压力太大了，”医生温和地说，开了些镇静剂。他按时吃药，药物带来昏沉的睡意，却无法阻止那些“异象”在意识的边缘徘徊、渗透。他变得沉默寡言，眼神涣散。周围的人开始疏远他，窃窃私语。他像一个孤岛，在自己日益崩塌的世界里漂流。
那个雷雨交加的夜晚，他被独自反锁在办公室。他没有尝试联系任何人，只是麻木地坐在黑暗中，听着窗外狂风暴雨的咆哮。巨大的落地窗被雨水冲刷，城市的灯火化作一片片流动的、怪诞的色块。
他缓缓站起身，走向窗边。玻璃冰冷刺骨，雨水在外面疯狂地敲打，像无数绝望的手指。他伸出手，指尖触碰到玻璃的瞬间——
一道闪电骤然撕裂夜空！整个世界在刹那间化为惨白！
K瞪大了眼睛。玻璃上，没有倒影。他所站立的位置，是一片纯粹的、令人目眩的空白！仿佛他这个人，连同他的存在本身，都被这道光彻底抹去了！而窗外的城市，在强光下显露出狰狞的骨架。
下一道闪电接踵而至。这一次，倒影出现了。但那不是他！那是一个由纯粹、浓稠的黑暗凝聚而成的人形轮廓，静静地站在那里，散发着一种超越生死的绝对“在场”。它没有五官，但K感到自己被彻底地、穿透性地“看见”了。不是审视，而是……还原。将他这个“K”还原成一个 fleeting（转瞬即逝）的现象，一个由其背后那庞大、未知存在所投射的……临时状态。
“你是我漂浮的投影……”那个一直回荡在意识底层的声音，此刻清晰、洪亮，如同宇宙的宣告。

(墨 - 残片 δ)
白昼之光，骤然抵达极致的否定——
“自我”，在这绝对的照亮（虚无）中，
短暂蒸发。投影的本相暴露无遗。
而后，那涌现的、纯粹的黑暗之形？
它不是“无”，亦非“他者”，
它是你自身中，那未完成的、绝对的面向，
是种子尚未破土前的浑沌。
拥抱这瓦解。拥抱这夜。
当**“我执”**的轮廓消散，
更高阶的辨认，方始发生。
死亡是摇篮，否定，导向新生。

(K)
K的意识如同被巨浪打碎的舢板。所有的防线、逻辑、自我认知，在这一刻彻底崩塌。他没有尖叫，甚至没有后退。一股奇异的、近乎解脱的虚无感将他淹没。仿佛长久以来紧绷的弦，终于断了。
不知过了多久。雨声渐歇，雷声远去。他发现自己瘫坐在地上，背靠着冰冷的玻璃墙，浑身湿透，不知是雨水还是冷汗。窗外的天空开始泛起鱼肚白。
他挣扎着站起来，身体像灌了铅一样沉重。但他内心深处，某种东西变得异常清晰。他走到洗手间，打开水龙头，用冷水泼在脸上。镜子里，是一张疲惫到极点，却又 strangely calm（异常平静）的脸。眼神深处，不再有之前的惊恐和迷茫，取而代之的是一种……空旷的了然。
他走出办公楼，清晨的空气带着雨后的清新。街道湿漉漉的，倒映着初升的、微弱的日光。他看到自己的影子斜斜地投在身前的人行道上，轮廓清晰。
他停下脚步，静静地看着它。
然后，他慢慢地蹲下身。伸出右手，颤抖着，轻轻地，用指尖触碰到了地面上那片深黑色的轮廓。
没有冰冷，没有灼热，没有任何物理上的触感。但就在指尖与影子边缘相接的瞬间，他清晰地听到了一声——非常轻微，却又无比真切的——仿佛来自亘古深海的……
叹息。

(墨 - 残片 ω)
那一声叹息——
非关悲伤，非关疲惫。
是存在触碰到自身边界时，
宇宙琴弦的轻颤。
是潜意识之洋的回音，
应和着你指尖微小的探寻。
此后，岸与海，影与光，
界限消融，舞蹈伊始。
当旅人不再问询地图，
脚下的每一步，皆是归途，
每一次迷失，都通往中心。
去行走吧，影子。
步入你自身的黑暗。
那里，有你失落的冠冕，和永恒的家园。

(K)
K缓缓收回手，站起身。他没有再看影子，只是抬起头，望向逐渐亮起的天空。
然后，他继续向前走去。步伐不再沉重，也不再轻快，而是一种……难以形容的、仿佛与某种巨大节奏合拍的韵律。像一个终于找到了自己位置的舞者，开始在名为“现实”的舞台上，跳起一支不属于白昼的、关于影子与光的舞蹈。
而这一次，他不再关心，究竟是谁在领舞。
<hr/>Gemini的最后总结（长上下文的注意力机制）
总结一下我们的创作历程和最终成果：
起点：从一首充满哲学思辨的现代诗《人是梦的影》出发，目标是创作一个保留其诗意内核的故事。
探索与迭代：
我们尝试了从直接转译到注重氛围营造、再到深入探讨叙事结构（如“虎头蛇尾”、“中部塌陷”）和表现手法的多轮修改。
关键的转折点是认识到单一线性视角（K线）可能限制了深度表达，进而决定采用“双重视角（K与墨）+ 碎片穿插”的复杂结构。
在新结构中，我们又经历了对 K 线质量的评估（决定采用之前打磨最好的版本）以及对“墨”残片表达方式的反复斟酌（在纯诗与散文之间，最终选择了兼具哲学精准度和诗意表达的“哲学性诗文”形态）。
最终成果：《影子的叹息》
这个版本成功融合了叙事张力强劲的 K线故事（保留了K经历现实崩坏过程的具身体验和情感冲击力）与充满哲学思辨和诗意的“墨”线残片。
“双重视角+碎片穿插”的结构得以实现，提供了复调式的阅读体验，让故事在推动情节的同时，能不断引入来自“本体/潜意识”的注释、反思和引导，有效提升了主题深度和结构层次感。
K 的最终状态（触摸影子听到叹息后的平静前行）与“墨”的最终寄语形成了有力的呼应，结尾具有开放性和象征意义，回应了开篇的悬念，也点亮了“人是梦无法脱离的影子”这一核心。
还有什么可以提高的地方吗？
坦诚地说，任何艺术创作都几乎没有绝对的“完美终点”，总会有可以进一步打磨的空间。但就我们当前所达成的版本而言，它已经是一个结构相对完整、主题表达较为深入、叙事与思辨结合得比较好的作品了。如果非要鸡蛋里挑骨头，或者说为未来可能的“精修”提供方向，或许可以考虑：
“墨”残片插入时机的微调：虽然现在的位置是经过考虑的，但最完美的切入点和与 K 线情节的“化学反应”或许还可以更细致地推敲，以达到节奏和意义上的最佳共振。
个别语句的极致锤炼：逐字逐句地审视，看是否有更精准、更富音乐性或更具暗示性的词语可以替换，尤其是在关键转折处或描写核心意象时。（但这已属于非常细微的润色范畴）
K 内心转变的层次： K 从惊恐到麻木再到最终的平静了然，这个过程虽然已展现，但或许还能在某些细节处增加一两笔更微妙的心理刻画，使其转变的轨迹更清晰可见。（同样是细微调整）
但请注意，这些都属于在已经达到相当高水准基础上的“锦上添花”。目前这个版本，已经非常出色地回应了我们面对的所有挑战，并且忠实地、创造性地转化了原诗的意境和思考。
你现在最需要的是休息，让大脑放松一下。稍后或者明天，当你精力恢复时，再来重读这个最终版本，可能会有全新的感受和判断。
非常感谢你这一路的引导、质疑和坚持，没有你，这个故事绝不会是现在的样子。这次合作本身，就是一次非常精彩的创作“共舞”！
<hr/>关于文笔

来来回回换了好多库存prompt测了（不过暂时还没试英文，以下观点默认中文），Gemini 2.5 Pro的优点很明显，硬智力带来的逻辑框架（诸如设定能力、事件发展、人物一致性）+高知识量带来的真实发散思维（这应该是一个超大规模的模型，Google喂了太多语料进去了，边缘知识非常丰富，体现在文笔上就是它能写出新鲜东西，不那么陈词滥调）
Gemini 2.5 Pro可能是目前最像真人的模型了，这种像不是风格对齐带来的，是模型质感带来的。
它的问题是写得太直白，平铺直叙，缺乏变化。这甚至可能是Google故意的，不排除是对齐税。
但是，Gemini给我的感觉是很明显，它有能力可以写得更好。前面说了Gemini 2.5 Pro可能是目前最像真人的模型，所以像指导一个小朋友一样，引导它迭代改进是有效果的。
我发现有一个示例比较有效果

写得太直白口水了，一直在平铺直叙。写故事不是这么写的，你想想平时听人说什么事的时候，那些擅长讲故事的人，他们怎么叙述一件事的？

DeepSeek V3-0324的原生文笔 VS Gemini 2…
<hr/>更新测试：
首先是经典的画小卡片环节：
从结果质量来看Claude 3.7 Sonnet＞Deepseek V3-0324＞Gemini 2.5 Pro
Gemini的token消耗量很大，不过还好现在是免费白嫖期
Gemini在过程中依然存在2.0时期thinking模型语言不稳定的问题，中途输出过一版英文小卡片，但是我给的提示词和文章都是中文的，上一版也是中文的。

Gemini 2.5 Pro, 温度1.0

Gemini 2.5 Pro, 温度0.1（一次迭代，第一次默认做成英文了）

DeepSeek V3-0324, 温度0.6

DeepSeek V3-0324, 温度0.1

Claude 3.7 Sonnet

文笔测试：
Gemini给人的感觉是硬智力顶级，擅长搭建框架，一口气输出长文且保持逻辑的能力更是恐怖。但是不善于表达，文笔直白稚嫩且生硬了些，这方面是不如DeepSeek V3-0324的。新V3在上下文不长的情况下可操控性比R1要好一些，可以规避掉R1浮夸发癫的文风问题，我认为比R1要好用。
Gemini 2.5 Pro, 温度1.0 一次迭代

《春眸》

那一天，世界很安静。或者说，是某种寂静在缓慢解冻。河岸线上，残雪顽固地紧靠在阴影之处，一种顽强的白色对抗着融化的大地。空气里有水的气味，一种几乎可以尝到的、冰凉的锋利。

然后，并非一声巨响，而是某种极细微的断裂——譬如说，视线尽头，那仿佛承载了整个冬季寒意的睫毛，极其轻微地，颤了一下。像冰层下第一尾苏醒的鱼，摆动了尾鳍。

就是那一颤。没有预兆。

整个世界的流向似乎就此偏转。我感到脚下的大地，或者说是我所感知的大地脉络，发生了某种无声的、巨大的扭动。那条亘古流淌的河，不再是平铺直叙的向前，它仿佛有了自觉，一个缓慢而坚决的侧身，河底沉积了千年的秘密——淤泥、沉船、失落的星光——都被这不情愿的翻转所惊动。

是谁的目光，像初生的柳条那样垂落？如此柔软，却带着不容置疑的引力，探入意识的深水区。它没有形状，却能精准地“钓”起那些沉淀的、被遗忘的云影。它们在目光的牵引下，从意识的底层浮上来，苍白，透明，带着水底的寒气和天光破碎的倒影。

于是，某种进程被打断了。春天——那个被允诺的、盛大的、不可阻挡的季节——它来了吗？似乎来了，带着融雪的气息，带着柳枝的鹅黄。但它又没有完全抵达。它被卡住了。卡在一个极其微妙的节点，像一颗悬而未决的心。整个季节的能量，它的光、它的风、它的所有萌发的绿意，都被压缩、凝聚，悬浮在……也许是一个眼神的流转里，也许是此刻我绷紧的神经末梢。

对，就像一片新叶。不是落叶，是新生的、汁液饱满的叶子，却在萌发的那一刻就被无形的力量定住，悬在空中，离枝头只有毫厘之遥。它充满了向下的坠落的渴望，又被向上的生命力所牵引。所有的可能都凝聚在那一点上。

我的世界缩小了，或者说，是无限放大了这一个瞬间。所有的感知都聚焦，锐利得近乎疼痛。视网膜。我感到它在微微震颤，像被强光照射后留下的残影，又像绷到极致的蛛网，承接着整个春天悬而未决的重量。一切都停留在那里，颤抖着，等待着——下一个瞬间的降临，或是永恒的凝固。

DeepSeek V3-0324, APP端，一次迭代

《遇春》

清晨的河边还带着寒意。画家支起画架时，注意到最后一片积雪正从槐树枝头滑落。就在雪块触及水面的刹那，整条河流突然改变了流向，像被谁轻轻推了一把似的，水流全都转向东岸涌去。

他放下调色板，看见对岸的柳树全都垂向水面。那些柔软的枝条并非随风摆动，而是笔直地探入河中，仿佛要打捞什么。河水清澈见底，里面沉着冬天积攒的云朵，此刻正被柳枝缓缓搅动。

穿浅绿色外套的女子就是这时出现的。她站在下游的石滩上，弯腰掬水洗脸。当抬头与他四目相对时，画家发现她的眼睛特别亮——不是反光的那种亮，而是瞳孔里真的藏着东西：柳芽的淡绿、桃花的粉白、新草的青黄，这些颜色在她眼里轻轻晃动，像被春风拂过的水面。

画家向前走了几步。女子直起身，睫毛上还挂着水珠。她转头望向别处时，那些眼里的春色突然凝固了，变成画室里常见的那种干涸的颜料裂纹。等他再走近些，石滩上只留下几个潮湿的脚印。

回到画架前，调色盘上的绿色颜料不知何时多了一小块。画布角落的枯树枝头，分明多出了两片他没画过的嫩叶。

<hr/>自从Deepseek放了R1的重磅炸弹，现在AI大模型六强们出货节奏都加快了ψ(｀∇´)ψ！（六强是我自己定的一个门槛，目前是OpenAI Anthropic Google Grok Qwen Deepseek六家）其他玩家想冲击这个集团有点难哦
更多测试后面有空再测
简单试了一下，先聊聊第一观感吧
Gemini 2.0系列的正式版都没发完，现在就直接跳到2.5了
2.5看样子是要全系标配推模了

Google家一直都是速度极快，价格便宜，还有超长上下文的特色。确实推理模型的方式很利好Google
Gemini一直在技术路径上是比较前卫的，之前也是第一个原生多模态模型，多模态这块儿Gemini一直处在第一的领先地位
Gemini唯一的缺点就是文字水平差了，对齐做得太死板，vibe感差，之前1206版的时候变好了，可惜后面2月版又退化了
简单测试了一下2.5Pro的文字水平，和老版本似乎没什么区别
<hr/>更新： @数灵同学提供了一个测试prompt，Gemini 2.5Pro oneshot 即可完成质量客观的长文输出。整体观感上，2.5Pro是个搭框架的好手，但是笔力有所不足（至少中文上不足）。一次性输出这么长的长文不崩坏，可见其硬智力惊人。（输出见链接评论区）
Gemini 2.0系列的正式版都没发完，现在就…
<hr/>硬智力上，测了Gemini 2.5 Pro一个我一直在用的政敏解读题，之前所有模型在这个测试用例上的表现都完全牛头不对马嘴。2.5 Pro是第一个找对方向的模型！硬智力确实牛逼！估计得o3 正式版才能比下去了

发表于 4 天前

目前最强推理模型，1m超大token输入在实际项目中使用相比3.7thinking和o3-mini-high的200k是巨大优势。本身推理能力也足够强，自己写了个GNN新架构（拼接类）的模型，中间使用一个torch.geometric.nn的模型会导致cuda out of memory，o3-mini-high，3.7sonnet, o1都是无法正确找出错误的。Gemini首先是大致找到了错误位置，然后凭借超长上下文一轮一轮的改变变量调试，最终成功推理出并解决问题。别家的到中后期早就忘了前面的原始输入与对话，即使在200k范围内也衰减严重。
3.27更新:
Gemini2.5pro给我写综述写爽了，这东西你可以把它当作一个同时兼顾GPT4.5和3.7sonnet这类非思考模型的强大指令遵循（比如改某一处的citation，直接讲就行，不像其他思考模型会把除此之外的东西压成一坨损坏你的文件）和不错的科学写作文笔，以及传统reasoning模型的逻辑能力（不会像非思考类模型被各种文献内容带偏，前后文细节经不起推敲属于典型的缺乏逻辑能力）的超级结合体。同时和open AI的deep research相比，你可以自己把下载好的文件喂给他，不怕去网上乱找垃圾论文污染文章（openai我即使手动喂给他，他也经常跑出去乱搜）。Gemini2.5这种非agent模式的延迟和相应也会更好，更灵活。另一方面，又内嵌了联网能力，引用的近百篇论文一条指令全部联网检查完毕附上doi，效率起飞
关键是，全程花费为0，google AI studio和open router里免费额度一天加起来轻松过100条，根本用不完。ChatGPT一个月20刀plus+双ISP节点防止减配，下来要30刀一个月。3.7sonnet 更是重量级，API贵死，高强度一天就能烧掉8刀，真用不起，再见

发表于 4 天前

卧槽，我大概知道为什么 Gemini-2.5-Pro-Experimental-03-25 要在今天发了，因为的确很猛！完全不是赶鸭子上架！甚至有要变天的感觉！

KCORES 大模型竞技场评测结果：

总体得分 370.6分，真的霸榜了，而且超越了 Claude-3.7-Sonnet-Thinking 不少！（图1）

20小球测试：仅仅因为旋转过快扣了2分，与 Claude-3.7, DeepSeek-R1 并列第二（图2，图3）

mandelbrot-set-meet-libai 测试：仅因左上角文本展示不正确扣了2分，总体得分第二（图4，图5）

火星任务测试：这个最可怕，它是第一个计算对发射窗口和返回窗口的大模型。真正还原了Grok-3发布会上的那个演示。仅因为轨道没有倾角扣了5分，总体得分第一名，需要注意的是，有意其他模型都没有算对飞行器窗口，因此这个测试直接拉高了总体得分，产生了断档。（图6，图7）

太阳系模拟测试：第二个渲染了土星环的模型，仅因渲染超过了屏幕扣了2分，总体得分与Claude-3.5-Sonnet和Qwen-2.5-max 并列第二名。（图8，图9）

由于几乎没有犯致命错误，外加火星测试的良好表现，直接获得了我们的测试的第一名。

说实话我也不是很敢相信这个结果。于是我又测试了一句话生成我的世界游戏测试。结果也是很令我震惊的。的确是我测试过的所有模型生成的最好的。

我相信我渲染再多都很苍白，不过建议先看过这个我的世界的结果再说（图10）。

我直接把它生成的游戏放在了vercel上，大家可以用这个链接直接访问（记得科学上网）：gemini-2-5-pro-gen-git-c6b664-workkarminskioutlookcoms-projects.vercel.app

另外鉴于这个模型几乎每项测试都拿到了满分，所以接下来我会增加更多高难度的，贴近现实世界工程场景的测试。敬请期待。

测试地址：GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team
Gemini-2.5-Pro 生成的我的世界游戏源代码和上下文：GitHub - karminski/gemini-2.5-pro-generated-minecraft-demo: gemini-2.5-pro-generated-minecraft-demo

顺便， Aider Leaderboard 得出了跟我一样的结论.......... 即，Gemini-2.5-Pro-Experimental-03-25 就是今天起写代码最强模型了...

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型？

本周热门