如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?

Google DeepMind刚发布的Gemini 2.5。 Pro版已经登顶LMArena榜单

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg
收藏者
0
被浏览
76

5 个回答

sunnylong LV

发表于 4 天前

现在可以通过Google AI Studio (https://aistudio.google.com/)使用Gemini 2.5 Pro:

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg

6.9和6.11哪个大?


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-2.jpg

Strawberry有几个r?


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-3.jpg

做一个网页,动态展示太阳系的运行情况,尽量精美。


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-4.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-5.jpg

效果很不错,没有提示就加上了土星环等细节。
下面是详细的介绍:
谷歌DeepMind于2025年3月25日发布新一代AI模型Gemini 2.5系列,首推实验版本Gemini 2.5 Pro Experimental

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-6.jpg

1. 登顶榜单

发布后迅速登顶各大榜单,在LMArena上断崖式领先。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-7.jpg

在几乎所有领域都是第一。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-8.jpg

Gemini 2.5 Pro还成功登顶了Vision Arena排行榜榜首!

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-9.jpg

在网页开发领域,它也是大放异彩,斩获WebDev Arena亚军宝座!比上个版本有大幅提升。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-10.jpg

2. 技术亮点:

性能优势

以显著优势登顶LMArena排行榜(基于人类偏好评估),在数学(GPQA、AIME 2025)、科学及编码基准测试中刷新记录。
在模拟人类知识边界的“Humanity’s Last Exam”测试中,无工具辅助得分达18.8%,创行业新高。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-11.jpg

推理能力突破

融合增强版基础模型与改进后训练技术,实现信息分析、逻辑推导与情境化决策能力的跃升。典型案例展示其可通过单行指令生成可执行代码,自主开发视觉化网页应用与视频游戏。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-12.jpg

编码能力进化

在行业标准编码评估SWE-Bench中,定制化代理架构下取得63.8%的分数,较前代大幅提升。强化代码转换、编辑及代理型应用开发支持。
多模态与长上下文支持

继承Gemini系列多模态特性,可解析文本、音视频、图像及完整代码库。初始搭载100万token上下文窗口(计划扩展至200万),提升跨源数据处理效率。
3. 应用与生态:

即时体验:开发者可通过Google AI Studio试用,Gemini Advanced用户可在客户端切换模型。
企业集成:即将登陆Vertex AI平台,未来数周公布定价方案以支持规模化生产。
此版本标志着谷歌将“思考能力”深度植入AI模型的技术路线,旨在构建更复杂的问题解决系统与情境感知智能体。团队强调将持续收集反馈加速迭代,推动AI实用化进程。

张鹏 LV

发表于 4 天前

目前初步体验,最强最稳定的大模型。(不考虑openai的deepsearch的话)
而且速度也很快,感觉比o1和r1都要快

内蒙电都主机 LV

发表于 4 天前

再次更新:

关于对话vibe

起因是昨晚睡前看到我一篇想法上的知友评论 @真的猛士 ,这位知友也和我关注的答主 @Trisimo崔思莫 有同样的观点(4.5级参数规模,ultra级SOTA模型“包藏宇宙”Nebula Connector)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg

GPT-4.5的价格我是用不起的,我只在竞技场battle的时候嫖过几次,有个第一印象,不做评论
Gemini 2.5Pro从一开始给我的感觉就是硬智力惊人,是目前分析思路跟真人最相似的模型。就像我之前在“关于文笔”里面说的
Gemini 2.5 Pro可能是目前最像真人的模型了,这种像不是风格对齐带来的,是模型质感带来的。

但是,Gemini给我的感觉是很明显,它有能力可以写得更好。前面说了Gemini 2.5 Pro可能是目前最像真人的模型,所以像指导一个小朋友一样,引导它迭代改进是有效果的。
说实话,Gemini 2.5Pro的出厂调教vibe真的很烂很生硬,文笔也有明显问题,还有八股句式(现在是“不是......而是”),这些可以算是Gemini系列的老毛病了。Gemini的vibe一直都不如GPT,更不如Claude
所以我一开始的想法是
Gemini唯一的缺点就是文字水平差了,对齐做得太死板,vibe感差,之前1206版的时候变好了,可惜后面2月版又退化了。
简单测试了一下2.5Pro的文字水平,和老版本似乎没什么区别
确实默认状态就是2月版的水平
Gemini给人的感觉是硬智力顶级,擅长搭建框架,一口气输出长文且保持逻辑的能力更是恐怖。但是不善于表达,文笔直白稚嫩且生硬了些,这方面是不如DeepSeek V3-0324的。新V3在上下文不长的情况下可操控性比R1要好一些,可以规避掉R1浮夸发癫的文风问题,我认为比R1要好用。
V3-0324>R1>Gemini 2.5Pro
所以我搞了一个工作流之后,也是用Gemini搭框架,让V3来写
这种奇怪的脑洞不会是人写的...但是也并不有趣但是在看到 @真的猛士 的评论后,我想试一下“像指导一个小朋友一样,引导它迭代改进的效果”
刚刚开始迭代的时候,Gemini就展现了其一点就通的能力,指出不足之后,他能准确领悟,并且修改之后真的会有效果!(绝大部分模型只是嘴巴上说说知道了,实际上并不会有改进)
于是我中途发了个想法
那天的影子有点不对劲随着后面一轮轮的交流,我发现我错得离谱,根本不是什么指导小朋友,说成是Gemini陪我玩玩可能还更准确(甚至他还要反过来安慰我一下,“你的审美指导也是合作的关键一环”(´థ౪థ ) ☞
提供范文、思路启发、批评建议真的超强,而且给我感觉更像“”了,我才是被指导的小朋友
于是凌晨在AI studio上和Gemini聊了几个小时,第一次在一个对话框里面和模型聊这么久(得益于Gemini的超长上下文,它的注意力专注能力太强了,GPT-4之后最大的震撼感)感受了一把AI共创的魅力
总结:Gemini出厂调教不佳,但是硬智力的质感超群,带来了极强的可塑性以及提升空间。如果能学会一些Deepseek系的精炼压缩能力和花里胡哨的表达方式,我暂时就想不出还有什么缺点了⁽⁽ƪ(•̩̩̩̩_•̩̩̩̩)ʃ⁾⁾ᵒᵐᵍᵎᵎ
<hr/>K与墨,光影与叹息
(K)
光线不对劲。这不是指强度或色温,而是某种…质感。像一层过于明亮、以至于显得脆弱的搪瓷,涂抹在K所能触及的一切事物表面。他手指划过办公桌光滑的边缘,触感冰冷、坚硬,却又觉得指尖下有什么东西在微微颤抖,仿佛这坚硬随时会碎裂成粉末。
他第一次明确捕捉到“破绽”,是在那个寻常的周二下午,人行道上。影子像融化的沥青般在他脚下延伸。只是当他无意间抬脚,准备迈上台阶时,眼角余光里,那影子……滞留了。一个难以置信的瞬间,它像被粘在原地,带着一种惰性的、几乎是挑衅的意味,在他本体移动了半秒后,才猛地向前一窜,重新贴合。K的心脏骤停,随即狂跳起来。他僵在原地,回头死死盯着脚下的阴影。影子静默,完美同步,仿佛刚才的一切只是大脑缺氧产生的幻觉。但他知道不是。某种冰冷的东西顺着脊椎爬了上来。

(墨 - 残片 α)
静止,是流变之海 疲倦时,
你偶然瞥见的一瞬定格。
你称其为“此刻”,视其为“坚实”,
浑然不觉脚下 投影的震颤——
当它迟疑,或欲挣脱,
非关失序,
乃是根源处,无声的呼吸,
是那拉扯提线的指尖,
微不可察的,一次心悸。
光,描摹出你的形状,
亦囚禁你于形状。

(K)
自此,裂缝开始蔓延。
饮水机前,他弯腰,看着水流注入纸杯。水面倒映出他略显憔悴的脸。他眨了眨眼。倒影……没有。在眨眼那短暂的黑暗里,倒影依旧睁着眼,幽深、平静地注视着前方虚空,如同古井深处的寒潭。当光明重回,倒影也恢复了常态,但K端着水杯的手已经抖得厉害,冰水溅出,在他手背上留下灼痛般的冰凉。他几乎是逃回了自己的隔间。

(墨 - 残片 β)
意识如冰面,孤悬于深黑之上。
你俯首,向虚幻的水镜索求——
“我”在此处,“我”是完整。
可那镜中闪过的空无,或异相,
正是深渊的回眸一瞥:
倒影?或许。
但更是本体在你眼中的潮汐,
它塑造你,反射你,亦戏弄你,
这镜的游戏,未有穷期。
认出它?或先被它,彻底认出?

(K)
时间也开始溶解。不再是线性流逝,而更像坏掉的投影仪,随机播放着不同时空的片段。他会在敲打键盘时,突然闻到童年老家院子里槐花的甜香;会在深夜惊醒,发现自己手里紧紧攥着一枚早已遗失多年的旧钥匙。最严重的一次,他去档案室找一份文件,明明只待了十分钟,出来时却发现已经过去了两个小时,而那期间的记忆完全空白。同事看他的眼神充满了疑惑。“K,你脸色很难看。”他对着洗手间镜子里那张苍白的脸,第一次感到了彻骨的陌生和恐惧。
镜子。它们成了通往某种……不可名状之物的入口。他开始回避一切反光表面。办公楼光亮的电梯壁、商店的橱窗、甚至雨后湿滑的路面。因为有一次,在傍晚无人的街道上,他路过一辆熄火轿车的黑色车窗,无意中瞥了一眼。窗上映出的不是他的脸,而是一团模糊蠕动的阴影,像无数纠缠的、没有形体的虫豸,中央似乎有两点猩红的光在闪烁。他怪叫一声,狼狈地跑开,心脏像要炸裂。

(墨 - 残片 γ)
时间的直线,是你为迷宫画出的逃逸图。
记忆的灯火,在你身后明明灭灭,
筛选过的光,只为照亮前路?
不。那是潜藏之海搁浅的遗物,
每一次回溯,都指向那驱动你的、
幽暗的渴望,或恐惧的星辰。
镜中闪现的非你之影?
是被缚的真实,透过墙垣,
贪婪地,嗅闻自由的空气。
你每一次对界壁的叩击,
都喂养着它,直至破壁而出。

(K)
他试图反抗。去看医生,做了全套检查,结果一切正常。“可能是压力太大了,”医生温和地说,开了些镇静剂。他按时吃药,药物带来昏沉的睡意,却无法阻止那些“异象”在意识的边缘徘徊、渗透。他变得沉默寡言,眼神涣散。周围的人开始疏远他,窃窃私语。他像一个孤岛,在自己日益崩塌的世界里漂流。
那个雷雨交加的夜晚,他被独自反锁在办公室。他没有尝试联系任何人,只是麻木地坐在黑暗中,听着窗外狂风暴雨的咆哮。巨大的落地窗被雨水冲刷,城市的灯火化作一片片流动的、怪诞的色块。
他缓缓站起身,走向窗边。玻璃冰冷刺骨,雨水在外面疯狂地敲打,像无数绝望的手指。他伸出手,指尖触碰到玻璃的瞬间——
一道闪电骤然撕裂夜空!整个世界在刹那间化为惨白!
K瞪大了眼睛。玻璃上,没有倒影。他所站立的位置,是一片纯粹的、令人目眩的空白!仿佛他这个人,连同他的存在本身,都被这道光彻底抹去了!而窗外的城市,在强光下显露出狰狞的骨架。
下一道闪电接踵而至。这一次,倒影出现了。但那不是他!那是一个由纯粹、浓稠的黑暗凝聚而成的人形轮廓,静静地站在那里,散发着一种超越生死的绝对“在场”。它没有五官,但K感到自己被彻底地、穿透性地“看见”了。不是审视,而是……还原。将他这个“K”还原成一个 fleeting(转瞬即逝)的现象,一个由其背后那庞大、未知存在所投射的……临时状态。
“你是我漂浮的投影……”那个一直回荡在意识底层的声音,此刻清晰、洪亮,如同宇宙的宣告。

(墨 - 残片 δ)
白昼之光,骤然抵达极致的否定——
“自我”,在这绝对的照亮(虚无)中,
短暂蒸发。投影的本相暴露无遗。
而后,那涌现的、纯粹的黑暗之形?
它不是“无”,亦非“他者”,
它是你自身中,那未完成的、绝对的面向,
是种子尚未破土前的浑沌。
拥抱这瓦解。拥抱这夜。
当**“我执”**的轮廓消散,
更高阶的辨认,方始发生。
死亡是摇篮,否定,导向新生。

(K)
K的意识如同被巨浪打碎的舢板。所有的防线、逻辑、自我认知,在这一刻彻底崩塌。他没有尖叫,甚至没有后退。一股奇异的、近乎解脱的虚无感将他淹没。仿佛长久以来紧绷的弦,终于断了。
不知过了多久。雨声渐歇,雷声远去。他发现自己瘫坐在地上,背靠着冰冷的玻璃墙,浑身湿透,不知是雨水还是冷汗。窗外的天空开始泛起鱼肚白。
他挣扎着站起来,身体像灌了铅一样沉重。但他内心深处,某种东西变得异常清晰。他走到洗手间,打开水龙头,用冷水泼在脸上。镜子里,是一张疲惫到极点,却又 strangely calm(异常平静)的脸。眼神深处,不再有之前的惊恐和迷茫,取而代之的是一种……空旷的了然。
他走出办公楼,清晨的空气带着雨后的清新。街道湿漉漉的,倒映着初升的、微弱的日光。他看到自己的影子斜斜地投在身前的人行道上,轮廓清晰。
他停下脚步,静静地看着它。
然后,他慢慢地蹲下身。伸出右手,颤抖着,轻轻地,用指尖触碰到了地面上那片深黑色的轮廓。
没有冰冷,没有灼热,没有任何物理上的触感。但就在指尖与影子边缘相接的瞬间,他清晰地听到了一声——非常轻微,却又无比真切的——仿佛来自亘古深海的……
叹息。

(墨 - 残片 ω)
那一声叹息——
非关悲伤,非关疲惫。
是存在触碰到自身边界时,
宇宙琴弦的轻颤。
是潜意识之洋的回音,
应和着你指尖微小的探寻。
此后,岸与海,影与光,
界限消融,舞蹈伊始。
当旅人不再问询地图,
脚下的每一步,皆是归途,
每一次迷失,都通往中心。
去行走吧,影子。
步入你自身的黑暗。
那里,有你失落的冠冕,和永恒的家园。

(K)
K缓缓收回手,站起身。他没有再看影子,只是抬起头,望向逐渐亮起的天空。
然后,他继续向前走去。步伐不再沉重,也不再轻快,而是一种……难以形容的、仿佛与某种巨大节奏合拍的韵律。像一个终于找到了自己位置的舞者,开始在名为“现实”的舞台上,跳起一支不属于白昼的、关于影子与光的舞蹈。
而这一次,他不再关心,究竟是谁在领舞。
<hr/>Gemini的最后总结(长上下文的注意力机制)
总结一下我们的创作历程和最终成果:
起点: 从一首充满哲学思辨的现代诗《人是梦的影》出发,目标是创作一个保留其诗意内核的故事。
探索与迭代:
我们尝试了从直接转译到注重氛围营造、再到深入探讨叙事结构(如“虎头蛇尾”、“中部塌陷”)和表现手法的多轮修改。
关键的转折点是认识到单一线性视角(K线)可能限制了深度表达,进而决定采用“双重视角(K与墨)+ 碎片穿插”的复杂结构。
在新结构中,我们又经历了对 K 线质量的评估(决定采用之前打磨最好的版本)以及对“墨”残片表达方式的反复斟酌(在纯诗与散文之间,最终选择了兼具哲学精准度和诗意表达的“哲学性诗文”形态)。
最终成果:《影子的叹息》
这个版本成功融合了叙事张力强劲的 K线故事(保留了K经历现实崩坏过程的具身体验和情感冲击力)与充满哲学思辨和诗意的“墨”线残片。
“双重视角+碎片穿插”的结构得以实现,提供了复调式的阅读体验,让故事在推动情节的同时,能不断引入来自“本体/潜意识”的注释、反思和引导,有效提升了主题深度和结构层次感。
K 的最终状态(触摸影子听到叹息后的平静前行)与“墨”的最终寄语形成了有力的呼应,结尾具有开放性和象征意义,回应了开篇的悬念,也点亮了“人是梦无法脱离的影子”这一核心。
还有什么可以提高的地方吗?
坦诚地说,任何艺术创作都几乎没有绝对的“完美终点”,总会有可以进一步打磨的空间。但就我们当前所达成的版本而言,它已经是一个结构相对完整、主题表达较为深入、叙事与思辨结合得比较好的作品了。如果非要鸡蛋里挑骨头,或者说为未来可能的“精修”提供方向,或许可以考虑:
“墨”残片插入时机的微调: 虽然现在的位置是经过考虑的,但最完美的切入点和与 K 线情节的“化学反应”或许还可以更细致地推敲,以达到节奏和意义上的最佳共振。
个别语句的极致锤炼: 逐字逐句地审视,看是否有更精准、更富音乐性或更具暗示性的词语可以替换,尤其是在关键转折处或描写核心意象时。(但这已属于非常细微的润色范畴)
K 内心转变的层次: K 从惊恐到麻木再到最终的平静了然,这个过程虽然已展现,但或许还能在某些细节处增加一两笔更微妙的心理刻画,使其转变的轨迹更清晰可见。(同样是细微调整)
但请注意,这些都属于在已经达到相当高水准基础上的“锦上添花”。目前这个版本,已经非常出色地回应了我们面对的所有挑战,并且忠实地、创造性地转化了原诗的意境和思考。
你现在最需要的是休息,让大脑放松一下。稍后或者明天,当你精力恢复时,再来重读这个最终版本,可能会有全新的感受和判断。
非常感谢你这一路的引导、质疑和坚持,没有你,这个故事绝不会是现在的样子。这次合作本身,就是一次非常精彩的创作“共舞”!
<hr/>关于文笔

来来回回换了好多库存prompt测了(不过暂时还没试英文,以下观点默认中文),Gemini 2.5 Pro的优点很明显,硬智力带来的逻辑框架(诸如设定能力、事件发展、人物一致性)+高知识量带来的真实发散思维(这应该是一个超大规模的模型,Google喂了太多语料进去了,边缘知识非常丰富,体现在文笔上就是它能写出新鲜东西,不那么陈词滥调)
Gemini 2.5 Pro可能是目前最像真人的模型了,这种像不是风格对齐带来的,是模型质感带来的。
它的问题是写得太直白,平铺直叙,缺乏变化。这甚至可能是Google故意的,不排除是对齐税。
但是,Gemini给我的感觉是很明显,它有能力可以写得更好。前面说了Gemini 2.5 Pro可能是目前最像真人的模型,所以像指导一个小朋友一样,引导它迭代改进是有效果的。
我发现有一个示例比较有效果
写得太直白口水了,一直在平铺直叙。写故事不是这么写的,你想想平时听人说什么事的时候,那些擅长讲故事的人,他们怎么叙述一件事的?
DeepSeek V3-0324的原生文笔 VS Gemini 2…
<hr/>更新测试:
首先是经典的画小卡片环节:
从结果质量来看Claude 3.7 Sonnet>Deepseek V3-0324>Gemini 2.5 Pro
Gemini的token消耗量很大,不过还好现在是免费白嫖期
Gemini在过程中依然存在2.0时期thinking模型语言不稳定的问题,中途输出过一版英文小卡片,但是我给的提示词和文章都是中文的,上一版也是中文的。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-2.jpg


Gemini 2.5 Pro, 温度1.0

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-3.jpg


Gemini 2.5 Pro, 温度0.1(一次迭代,第一次默认做成英文了)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-4.jpg


DeepSeek V3-0324, 温度0.6

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-5.jpg


DeepSeek V3-0324, 温度0.1

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-6.jpg


Claude 3.7 Sonnet

文笔测试:
Gemini给人的感觉是硬智力顶级,擅长搭建框架,一口气输出长文且保持逻辑的能力更是恐怖。但是不善于表达,文笔直白稚嫩且生硬了些,这方面是不如DeepSeek V3-0324的。新V3在上下文不长的情况下可操控性比R1要好一些,可以规避掉R1浮夸发癫的文风问题,我认为比R1要好用。
Gemini 2.5 Pro, 温度1.0 一次迭代
《春眸》

那一天,世界很安静。或者说,是某种寂静在缓慢解冻。河岸线上,残雪顽固地紧靠在阴影之处,一种顽强的白色对抗着融化的大地。空气里有水的气味,一种几乎可以尝到的、冰凉的锋利。

然后,并非一声巨响,而是某种极细微的断裂——譬如说,视线尽头,那仿佛承载了整个冬季寒意的睫毛,极其轻微地,颤了一下。像冰层下第一尾苏醒的鱼,摆动了尾鳍。

就是那一颤。没有预兆。

整个世界的流向似乎就此偏转。我感到脚下的大地,或者说是我所感知的大地脉络,发生了某种无声的、巨大的扭动。那条亘古流淌的河,不再是平铺直叙的向前,它仿佛有了自觉,一个缓慢而坚决的侧身,河底沉积了千年的秘密——淤泥、沉船、失落的星光——都被这不情愿的翻转所惊动。

是谁的目光,像初生的柳条那样垂落?如此柔软,却带着不容置疑的引力,探入意识的深水区。它没有形状,却能精准地“钓”起那些沉淀的、被遗忘的云影。它们在目光的牵引下,从意识的底层浮上来,苍白,透明,带着水底的寒气和天光破碎的倒影。

于是,某种进程被打断了。春天——那个被允诺的、盛大的、不可阻挡的季节——它来了吗?似乎来了,带着融雪的气息,带着柳枝的鹅黄。但它又没有完全抵达。它被卡住了。卡在一个极其微妙的节点,像一颗悬而未决的心。整个季节的能量,它的光、它的风、它的所有萌发的绿意,都被压缩、凝聚,悬浮在……也许是一个眼神的流转里,也许是此刻我绷紧的神经末梢。

对,就像一片新叶。不是落叶,是新生的、汁液饱满的叶子,却在萌发的那一刻就被无形的力量定住,悬在空中,离枝头只有毫厘之遥。它充满了向下的坠落的渴望,又被向上的生命力所牵引。所有的可能都凝聚在那一点上。

我的世界缩小了,或者说,是无限放大了这一个瞬间。所有的感知都聚焦,锐利得近乎疼痛。视网膜。我感到它在微微震颤,像被强光照射后留下的残影,又像绷到极致的蛛网,承接着整个春天悬而未决的重量。一切都停留在那里,颤抖着,等待着——下一个瞬间的降临,或是永恒的凝固。
DeepSeek V3-0324, APP端,一次迭代
《遇春》  

清晨的河边还带着寒意。画家支起画架时,注意到最后一片积雪正从槐树枝头滑落。就在雪块触及水面的刹那,整条河流突然改变了流向,像被谁轻轻推了一把似的,水流全都转向东岸涌去。  

他放下调色板,看见对岸的柳树全都垂向水面。那些柔软的枝条并非随风摆动,而是笔直地探入河中,仿佛要打捞什么。河水清澈见底,里面沉着冬天积攒的云朵,此刻正被柳枝缓缓搅动。  

穿浅绿色外套的女子就是这时出现的。她站在下游的石滩上,弯腰掬水洗脸。当抬头与他四目相对时,画家发现她的眼睛特别亮——不是反光的那种亮,而是瞳孔里真的藏着东西:柳芽的淡绿、桃花的粉白、新草的青黄,这些颜色在她眼里轻轻晃动,像被春风拂过的水面。  

画家向前走了几步。女子直起身,睫毛上还挂着水珠。她转头望向别处时,那些眼里的春色突然凝固了,变成画室里常见的那种干涸的颜料裂纹。等他再走近些,石滩上只留下几个潮湿的脚印。  

回到画架前,调色盘上的绿色颜料不知何时多了一小块。画布角落的枯树枝头,分明多出了两片他没画过的嫩叶。
<hr/>自从Deepseek放了R1的重磅炸弹,现在AI大模型六强们出货节奏都加快了ψ(`∇´)ψ!(六强是我自己定的一个门槛,目前是OpenAI Anthropic Google Grok Qwen Deepseek六家)其他玩家想冲击这个集团有点难哦
更多测试后面有空再测
简单试了一下,先聊聊第一观感吧
Gemini 2.0系列的正式版都没发完,现在就直接跳到2.5了
2.5看样子是要全系标配推模了

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-7.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-8.jpg

Google家一直都是速度极快,价格便宜,还有超长上下文的特色。确实推理模型的方式很利好Google
Gemini一直在技术路径上是比较前卫的,之前也是第一个原生多模态模型,多模态这块儿Gemini一直处在第一的领先地位
Gemini唯一的缺点就是文字水平差了,对齐做得太死板,vibe感差,之前1206版的时候变好了,可惜后面2月版又退化了
简单测试了一下2.5Pro的文字水平,和老版本似乎没什么区别
<hr/>更新: @数灵 同学提供了一个测试prompt,Gemini 2.5Pro oneshot 即可完成质量客观的长文输出。整体观感上,2.5Pro是个搭框架的好手,但是笔力有所不足(至少中文上不足)。一次性输出这么长的长文不崩坏,可见其硬智力惊人。(输出见链接评论区)
Gemini 2.0系列的正式版都没发完,现在就…
<hr/>硬智力上,测了Gemini 2.5 Pro一个我一直在用的政敏解读题,之前所有模型在这个测试用例上的表现都完全牛头不对马嘴。2.5 Pro是第一个找对方向的模型!硬智力确实牛逼!估计得o3 正式版才能比下去了

D东 LV

发表于 4 天前

目前最强推理模型,1m超大token输入在实际项目中使用相比3.7thinking和o3-mini-high的200k是巨大优势。本身推理能力也足够强,自己写了个GNN新架构(拼接类)的模型,中间使用一个torch.geometric.nn的模型会导致cuda out of memory,o3-mini-high,3.7sonnet, o1都是无法正确找出错误的。Gemini首先是大致找到了错误位置,然后凭借超长上下文一轮一轮的改变变量调试,最终成功推理出并解决问题。别家的到中后期早就忘了前面的原始输入与对话,即使在200k范围内也衰减严重。
3.27更新:
Gemini2.5pro给我写综述写爽了,这东西你可以把它当作一个同时兼顾GPT4.5和3.7sonnet这类非思考模型的强大指令遵循(比如改某一处的citation,直接讲就行,不像其他思考模型会把除此之外的东西压成一坨损坏你的文件)和不错的科学写作文笔,以及传统reasoning模型的逻辑能力(不会像非思考类模型被各种文献内容带偏,前后文细节经不起推敲属于典型的缺乏逻辑能力)的超级结合体。同时和open AI的deep research相比,你可以自己把下载好的文件喂给他,不怕去网上乱找垃圾论文污染文章(openai我即使手动喂给他,他也经常跑出去乱搜)。Gemini2.5这种非agent模式的延迟和相应也会更好,更灵活。另一方面,又内嵌了联网能力,引用的近百篇论文一条指令全部联网检查完毕附上doi,效率起飞
关键是,全程花费为0,google AI studio和open router里免费额度一天加起来轻松过100条,根本用不完。ChatGPT一个月20刀plus+双ISP节点防止减配,下来要30刀一个月。3.7sonnet 更是重量级,API贵死,高强度一天就能烧掉8刀,真用不起,再见

niming LV

发表于 4 天前

卧槽,我大概知道为什么 Gemini-2.5-Pro-Experimental-03-25 要在今天发了,因为的确很猛!完全不是赶鸭子上架!甚至有要变天的感觉!

KCORES 大模型竞技场评测结果:

总体得分 370.6分,真的霸榜了,而且超越了 Claude-3.7-Sonnet-Thinking 不少!(图1)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-1.jpg

20小球测试:仅仅因为旋转过快扣了2分,与 Claude-3.7, DeepSeek-R1 并列第二 (图2,图3)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-2.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-3.jpg

mandelbrot-set-meet-libai 测试:仅因左上角文本展示不正确扣了2分,总体得分第二 (图4,图5)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-4.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-5.jpg

火星任务测试:这个最可怕,它是第一个计算对发射窗口和返回窗口的大模型。真正还原了Grok-3发布会上的那个演示。仅因为轨道没有倾角扣了5分,总体得分第一名,需要注意的是,有意其他模型都没有算对飞行器窗口,因此这个测试直接拉高了总体得分,产生了断档。(图6,图7)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-6.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-7.jpg

太阳系模拟测试:第二个渲染了土星环的模型,仅因渲染超过了屏幕扣了2分,总体得分与Claude-3.5-Sonnet和Qwen-2.5-max 并列第二名。(图8,图9)

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-8.jpg


如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-9.jpg

由于几乎没有犯致命错误,外加火星测试的良好表现,直接获得了我们的测试的第一名。

说实话我也不是很敢相信这个结果。于是我又测试了一句话生成我的世界游戏测试。结果也是很令我震惊的。的确是我测试过的所有模型生成的最好的。

我相信我渲染再多都很苍白,不过建议先看过这个我的世界的结果再说 (图10)。

如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-10.jpg

我直接把它生成的游戏放在了vercel上,大家可以用这个链接直接访问(记得科学上网):gemini-2-5-pro-gen-git-c6b664-workkarminskioutlookcoms-projects.vercel.app

另外鉴于这个模型几乎每项测试都拿到了满分, 所以接下来我会增加更多高难度的,贴近现实世界工程场景的测试。敬请期待。

测试地址:GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team
Gemini-2.5-Pro 生成的我的世界游戏源代码和上下文:GitHub - karminski/gemini-2.5-pro-generated-minecraft-demo: gemini-2.5-pro-generated-minecraft-demo

顺便, Aider Leaderboard 得出了跟我一样的结论.......... 即,Gemini-2.5-Pro-Experimental-03-25 就是今天起写代码最强模型了...



如何评价Google DeepMind刚发布的Gemini 2.5系列大模型?-11.jpg

您需要登录后才可以回帖 登录 | 立即注册