Grok3是否已证明堆算力无用,全人类的信息量不足以支撑大模型技术涌现更强AI?

Grok3是否已证明堆算力无用,全人类的信息量不足以支撑大模型技术涌现更强AI?
收藏者
0
被浏览
64

5 个回答

鹏大大 LV

发表于 昨天 14:16

堆算力是有用的,grok3这种超级巨模明显要比一些明显小一号的大模型数据库搜索能力更强,可以对文字有更好的匹配性,但是到了和deepseek和GPT4o对比的话,就没有那种鸿沟级别的优势了,可能也就是风格化方面可以匹配的更细腻一点。
所以能不能实现更强一个等级的AI就很难说了,我个人使用grok3写东西的话,哪怕是给五百字非常明确的提示文,进行三千字的扩写都会出现一些重复的语句,尤其是重复的对白和形容词会略频繁,以及偶尔不明原因的奇怪描述,这些bug都是需要写完以后花一定精力去修正的,grok3还是有着这些大模型该有的通病。
所以我感觉原理层面上来说grok3这种超级巨模也依旧不存在对文字的真正理解力,它只会是一种根据概率函数的分布来吐字填词的办公工具,优势在于可用性强了一点细腻了一点,这个强一点的优势并没有体现出二十万卡的差距,可能也许大模型的瓶颈已经很近了。

fdsgsg LV

发表于 昨天 14:24

請不要把邊際效應當成「沒有用」
Grok3反而證明了堆算力還有用,只是如果你算力沒有xAI, Meta這種等級,就該考慮DeepSeek的技術路線。
另外,算力這東西有個反直覺的事實:對於擁有IDC的公司來說,閒置跟滿載是一樣貴的。
看看google的財報就知道了,idc相關成本繼續沒有特別大的變動,但是閒置成本大幅下降、AI成本大幅上升。
Grok3的意思差不多就是「如果你有一堆沒在動的顯卡,你可以讓他們動起來了」

devil0 LV

发表于 昨天 14:35

grok3明显比deepseek强(事实上升级之前的chatgpt也明显比deepseek强,更别说现在的chatgpt4.5了。deepseek只是成本低,性价比高,并不是性能强)。
deepseek,特别是R1的幻觉率实在是太离谱了,比其他的同档次模型高好几倍乃至高一个数量级,离谱到了几乎无法用的地步,所以刚过年的时候用了几天,随着其他各家都升级了自己的底座模型(chatgpt4.5,claude3.7,grok3)之后,就基本上只用元宝搜公众号了。
所以,你只能说边际递减,不能说堆算力没用。
……
不是,用都没用过的就别来刷存在感了。

Grok3是否已证明堆算力无用,全人类的信息量不足以支撑大模型技术涌现更强AI?-1.jpg

这是我的日常高强度使用方式(NOI的四个模型同步提问+管理提示词,其实本来里面还有deepseek,但是deepseek官网各种拉,直接用火山的API了,gemini顶替了它的位置。)
防止泄露某些隐私,直接盖住了输入输出的内容部分。
我真的是同步判断的(每一个都是同样的提示词,然后每一次都是对比不同的输出。)
鉴于很多人可能只知道deepseek(这个问题也是基于这个的吧),给大家科普一下,deepseek是年前上的桌,现在已经过去一两个月了,如果桌子上只能坐四个人打麻将(我通常只同步对比四个的,再多了太累),deepseek上桌玩了一波,现在已经又下桌了,得看接下来的R2能不能再上桌了。
再放一个幻觉数据:

Grok3是否已证明堆算力无用,全人类的信息量不足以支撑大模型技术涌现更强AI?-2.jpg

Mr·Jax LV

发表于 昨天 14:50

现在这些主流闭源大模型,都不太愿意公布自己的训练数据量,不过我们可以根据GROK3的1.8万亿参数量简单估算一下。
Hoffmann等人2022年的时候提出过一个Chinchilla Scaling Laws,用来讨论大模型训练所需计算量和数据量的关系。
训练总计算量C 与模型参数数量N和训练数据规模D之间的关系可以表示为:

C0是个常数,表示训练单个参数使用单个token 所需的计算量。
模型训练的损失L与N和D之间的关系则可以表示为:

L0是理想情况下(模型容量和数据量趋于无穷大)可达到的损失极限,Chinchilla 原始论文中的拟合结果约为1.69.
A、B是两个经验数值,拟合结果分别约为406.4和410.7.
α、β是损失随模型规模和数据规模变化的指数,分别拟合为0.34和0.28.
根据这些公式可以推导出,在算力不变的情况下,最佳的D和N呈线性比例关系,大致满足D≈20N,也就是说每个模型参数大约需要20个训练token。
从Grok3有1.8万亿参数来推断的话,如果每次推理中所有参数都被激活的话,那么根据Chinchilla法则,数据量约为1.8×20,约为36万亿token。
36万亿token是什么概念呢?
根据中国数字科技馆的报道,2018 年全球创建、捕获、复制和消耗的数据总量约为 33 ZB(泽字节),2020 年增长到 59 ZB,预计到 2025 年将达到 175 ZB。
1ZB = 1,000,000,000,000,000,000,000 字节(10²¹ 字节)
175 ZB = 175 × 10²¹ 字节 = 1.75 × 10²³ 字节
假设每个token平均由4个字符组成,每个字符占用1个字节,那么每个 token大约要占用4字节。
总token数量 = 总字节数 ÷ 每个token的字节数​ = 1.75 × 10²³ 字节 ÷ 4 字节/token​ = 0.4375 × 10²³ token​ = 4.375 × 10²² token
也就是说,截至2025年,预计全球累积的数据总量约为4.375 × 10²²个 token,即约 43.75 万亿亿个 token。
这样看起来,即使是号称“地表最大”的GROK3模型,所用到的数据量相对于“全人类的信息”也是微不足道的,远远没有“耗尽”人类信息用于训练大模型。
更何况,上面所估算的GROK3数据量是在每一次训练都激活所有参数的情况下简单乘出来的。
而实际上,GROK3采用了混合专家模型(MoE)架构,也就是说,并非所有参数在每次推理中都会被激活。
​根据GROK3公开的资料来看,它共包含256个专家模块,每次激活的参数量会根据任务的复杂度进行动态调整。
这也就意味着,实际参与计算的参数数量可能远小于 1.8 万亿,所以训练需要的数据量也远小于36万亿。
所以说,真的不用替这些大模型操心,人类的信息量足够大模型进行学习。
至于说算力,一般也就意味着GPU的数量,与大模型的参数之间同样有着很密切的关系。
其实这并不难理解,模型的参数量会直接影响显存的占用,因为每个参数都需要储存在显存中。一般来说,参数以32位浮点数(即4字节)表示,一个拥有10亿参数的模型大约需要4 GB的显存来存储这些参数。
但是吧,除了参数以外,还包括激活值、梯度信息和优化器状态等需要储存在显存中,所以实际所需的显存往往是模型参数所占用显存的数倍之多。
那么很显然,算力越大,能够支持的模型参数数量也就越多,参与训练的数据量也就越大。
而GROK3的性能也证实,至少在目前的情况下,大幅度提升算力,用更多的数据训练更复杂的模型,仍然可以提升大模型的性能。
不管大模型未来的发展是继续不计成本的堆算力,还是像DeepSeek一样研究小而精的模型,对于我们打工人来说,都不应该试图与大模型“争锋”。与其跟大模型比谁干得多、干得快,不如和大模型合作,用“人+大模型”的超级组合,提升自己的竞争力。想要快速入门大模型的话,建议看看知乎知学堂的大模型应用开发公开课,从模型原理讲到落地应用,不仅能迅速掌握用大模型提高工作效率的方法,更是让自己掌握了“高薪技能”,毕竟现在大模型工程师可是炙手可热的高薪工作之一。
自从有了大模型辅助工作,不仅能偷偷卷赢同事,更让人多了一份底气。毕竟都是接近35岁的中年人,多学些新技术,也就多给自己一点职场竞争力。
至于说继续堆算力,到底能不能训练出更加“优秀”的大模型,我觉得是可以的。
只是目前拟合出来的这些scaling law,可能未必适用于未来更大的模型。
有研究发现,无论是经典的scaling law公式,还是Chinchilla Scaling Laws,其实都更关注大模型的预训练部分,而没有对模型的推理部分进行考虑。
研究结果表明,如果有很大的推理需求的话,比如说超过10亿次的推理请求,应该训练一个比Chinchilla Scaling Laws所建议的规模小一些,但训练数据更多的模型。
随着推理需求的增加,这个过程也需要耗费很多算力,所以需要同时考虑模型的训练和推理成本:

毕竟每一次推理都是要耗费算力的,模型规模过大的话,即使算力能够支持预训练过程的完成,未来可能也会在无数次的推理请求中,无奈的显示404,或者屏幕上不停转圈圈。
研究人员一共训练了47个从1.5亿到60亿参数不等的模型,每个参数数据量范围从10到10000个token。结果发现随着数据量越来越大,越来越大……模型损失(loss)仍然持续下降,并未出现性能饱和的迹象。
同时研究结果还表明,损失一部分模型规模,同时应用更大数据量的话,能够有效提升模型性能,使“小模型”达到“大模型”的推理效果。
现在的所有研究,其实都是在寻找算力、参数量与训练数据量之间的平衡。
GROK3崇尚的是“大力出奇迹”,主打一个“财大气粗”,用足够的算力支持足够大的模型和足够多的数据;GPT4.5没有这么“豪横”,努力的在几者之间寻找平衡,希望实现“尽可能实惠”的性能最大化;DeepSeek则是主打一个“精打细算”,用各种技术弥补算力的不足,希望用算法和数据实现模型“智能”的最大化。
我估计未来不同风格的大模型还是会在各自的发展道路上不停“狂奔”,但不管怎样,无论是GROK3的“豪横”路线、GPT4.5的“平衡”策略,还是DeepSeek的“精巧”打法,都在用各自的方式证明:大模型技术还远远没有到达瓶颈,人类的信息量也远未被"耗尽"。
随着互联网内容的爆炸式增长,每天都有海量的“新数据”被创造出来成为大模型进一步提升的“燃料”。而且随着多模态技术的发展,图像、视频、音频等非文本数据也被越来越多的纳入训练范围,或许会成为大模型下一步“竞争”的重点。
对于我们普通人来说,与其焦虑大模型会不会“耗尽人类信息”,不如考虑如何与它们协同工作,让自己成为“人机结合体”中不可或缺的那部分。

死扛 LV

发表于 昨天 15:04

很多人自已说服自己LLM们已经达到了“现有技术”的顶峰。但是对这个所谓的现有的技术却毫不知情。为什么大家喜欢用0.11和0.8来比大小,因为这对于现有所有大模型而言他们的智力本质不是人类理解的抽象概念,而是一个超级高维度的特征。0.11和0.8的特征是没有十分位和百分位,对比他们大小也没有人类理解中的百分位不能对比十分位。所以这就如同狗界难题或章鱼喜欢钻罐子一样,是先天问题。
我们发表意见不需要对评价的事物知根知底,但是如果连尝试了解的努力都不做,也就是试用大模型的免费额度,那我认为我们我们不过只是斗蛐蛐而已。
<hr/>我用一个例子:“我有TurboGFP和spGFP,我的目标是转染难以转染的细胞并且希望找到如何实现稳定转染的方法。我转染的蛋白是高kda的蛋白。我应该选择哪一种?”这个问题是一个陷阱,也就是无论你转染的蛋白是多少kda的,你首先需要确定你的方法可以实现转染。也就是你首选需要的positive control再说下一步。
这个问题下,只有grok3正确理解了问题的核心不在蛋白而是要探索实现稳定转染的方法。Grok3很准确理出了这个实验设计存在先后关系。对比之下,其他的模型能基于这两个fp的特性回答,无法理解他们和我实际问题的关系。这就是能用和好用的区别。

Grok3是否已证明堆算力无用,全人类的信息量不足以支撑大模型技术涌现更强AI?-1.jpg


R1(左),Grok3(中),Claude(右)

说心里话,这个问题你问PI或专家都未必能第一时间发现蛋不蛋白和转染算是没关系的。

Grok3是否已证明堆算力无用,全人类的信息量不足以支撑大模型技术涌现更强AI?-2.jpg

解题的关键就在Grok CoT中的这一点,只要大模型可以想到,其实所谓的陷阱不过是废物信息吧了。
<hr/>你自己去用用Grok3,感受一下那夸张的输出速度和思考链长度。我们不对比官方的R1,对比同样以速度见长的Gemini 2.0 lite和Pro模型,你就会发现算力现在远远没有达到所谓的过剩。Claude 3.7就是一个非常典型的反例,Anthropic的卡没有xAI的多,所以你就很容易看到思考半天吐出个垃圾的结果。反而是不CoT的Claude 3.7有时候给出的结果很喜人。
你显卡多了,可以给更多的人同时输出更高质量的答案,这就是当下大规模显卡集群或超算中心的目的和意义。更不要说训练下一代超级大号的LLM还是需要大规模的GPU集群。有一说一,20万张H100听起来是很夸张,但是你只需要参考Nvidia的显卡出货量就不难发现区区20万张卡不过是需求量的10%。就这点规模还说Scaling law失效,就这点规模就说信息量不足简直就是空中楼阁。
况且DeepSeek也证明了没有大规模的GPU集群/超算中心就没有多模态。所有的榜上有名的大模型中只有R1是纯文本。多模态背后的所有大佬都是过去云计算的核心提供商,这一点更是验证了LLM的竞赛中显卡、技术、数据集以及能源都是缺一不可的。倒是我认为deepseek证明了一点,在AGI之前,或大模型依旧依赖超大参数的现在,个人部署大模型没有现实意义。成本、能耗、碳排放以及性能完全不如直接租用或透过API调用。
说到Grok3和Claude3.7以及R1的模型能力,我们不看跑分,就是日用下来你就不难发现他们对于STEM难题的能力呈现显著的谁的思考链长以及谁的基础模型更好就等于更好的结果。虽然我不认为Zero Shot是需要追求的目标,但是Grok3很显然得告诉大家堆砌显卡可以让zero shot越来越接近multi shot的结果。
你要说Deepseek证明了什么,那我认为幻方证明了谷歌最初三条腿走路的思路确实踩出了最好的路线:RL依旧是最“强大”的self-supervised学习方法,MoE混合架构不需要高精度,传统transformer只需要decoder既可以产生智能。
<hr/>很多人认为实现R1的水平就是国运级别的大胜利,但是这不过是前往AGI的第一步。长征的话来说就是队伍还没过第二次过赤水就要宣布成功一样。我们确实走过了包围圈(显卡禁运)但是长征的路还远着呢!
现在的大模型的STEM,复杂逻辑,抽象理解等等方向很不足。最好的大模型的能力和优秀高中生或认真学习通识教育的大学生差不多一个水平。可是既然要开发AI,要走AGI道路,那就得对比好的大学生甚至是出色的研究生,要对比工业运用就要对比经验丰富的专家。就现在所有LLM的水平说AGI完全痴人说梦。最初喊出取代人类的是AlexNet,或基于这个逻辑开发的医学图像模型。别人喊取代人类是真的超越了作为专家的部分医生,或最专业的人类。
倒是,Deepseek这么一出来,有一个是真的掉队了:GPT4.5。高情商得说,他如此高的价格对不起他能做的。

您需要登录后才可以回帖 登录 | 立即注册