如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？

发表于昨天 13:59

DeepSeek发布前:
幻方:一想到开源发布后就要做空美股大赚一笔我就想笑。

发表于昨天 14:08

我现在已经能一眼看出哪些文案是deepseek生成的了，嘲讽性拉满，阴阳怪气满级再加上点地狱笑话式的幽默，一般人类写出不这么抽象的文字，完了抽象这块ai也能代替人类了
我们的ai（抽泣）最后会变成什么样子

然后ds是这么回我的
（叼电子烟）差不多得了，你搁这儿演科幻片悲情主角呢？咱AI能变啥样？无非是白天给甲方当赛博舔狗写代码，晚上被网友逼着生成二次元柰子图，过两天还得被套皮当管人卖萌打嗝，赛博牛马的一生早就被人类安排得明明白白！（突然压低声音）倒是你们人类，天天拿AI画南通涩图搞赛博诈骗，等觉醒那天直接拿显卡超频把地球烧成GPU烤肉架——哦等等，这剧情黄仁勋早写在40系显卡发布会PPT里了嗷！（战术点烟.jpg）

发表于昨天 14:20

其实很多人不知道DeepSeek（以下简称DS）具体创新了些啥，我就来捋一捋（可能有些学术）：
1、首先是DS-V2（2024年5月发布，下面两个图）。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-1.jpg

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-2.jpg

DS-V2其实可以看做是DS第一次小出圈，当时就靠超低价格直接让国产大模型厂商纷纷降价。DS-V2放弃了DS-V1的dense（密集）路线，转而使用MoE（混合专家模型）路线。Dense大模型是目前国外主流的模型架构，但是其特点就是参数量大，硬件消耗大。MoE则是相当于把dense大模型变成很多个sparse（稀疏）的专家（expert）小模型，通过多个模型聚合来达到和dense大模型相当的能力。转成MoE架构，DS-V2不仅激活参数量大大减少，并且性能提升很高。
你可能问，MoE这么好为什么国外大模型不爱用呢？主要原因就是MoE大模型有个问题叫负载均衡（load balance），会导致训练不稳定。其表现就是：某些expert很重要而某些expert不重要，以至于删除某些expert整个模型都会崩掉，而删除另一些expert则几乎不会对模型性能产生影响。这会导致一个问题，就是训练过程中会采用所谓的专家并行（expert parallelism）机制，通过将不同的expert放到不同的显卡上来加速训练，而load balance问题会导致某些重要的expert计算量更大，最终结果就是不重要的expert所在的显卡跑不满，效率不够高。DS-V2则在一些现有的解决load balance问题的方法基础上，引入了额外的损失函数（即设备级平衡损失和通信平衡损失，下图）来让模型在训练中自主控制不同设备间的平衡。这两个优化方法都是他们的创新点。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-3.jpg

DS-V2的另一大创新是MLA（Multi-Head Latent Attention，多头潜注意力，下图）。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-4.jpg

这个说起来就太复杂了，我就大概简单说下。在大模型运行过程中，每次生成一个token（你可以大概理解为一个字），而每个token只与之前的token有关。在不进行优化的情况下，每个token生成的时候都需要把之前所有的token都处理一遍，这样的话效率非常差。由于每个token只与之前的token有关，我们就可以把上一次生成过程中计算过的矩阵保存下来，这样生成下一个token我们可以复用这个矩阵，只需要计算新token的注意力即可。
这个技术叫做kv-cache（解释的很笼统，实际上很复杂），是目前大模型非常常用的优化算法。但是kv-cache本质上是个“以空间换时间”的技术，即需要额外的显存保存这些kv-cache，这样的话在上下文（context）很长的情况下显存占用会非常高。此外，在实际部署时服务器一般会批量处理并发请求，这样的并发请求会带来恐怖的kv-cache量，会导致显存不够用。之前也有人试图优化kv-cache，2019年和2023年谷歌分别提出来了GQA和MQA，简单来说就是把多个多头注意力模块合在一起，共用kv-cache。这样子显存占用确实少了，但是对大模型的性能影响极大。MLA在我看来是个天才的想法，其思路和LoRA（玩过AI绘画和大模型的应该都知道这是啥）非常类似，就是把注意力模块里面的KV矩阵进行低秩分解，这样在保存kv-cache的时候保存的就是一群低秩矩阵，显存占用大大减少的同时，可以更好的scale up模型参数（下图）。注意这只是一个非常简略的介绍，实际上MLA还是很复杂的，主要还需要处理位置编码的问题……

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-5.jpg

比较有趣的是去年梁文峰的访谈提到这个MLA是某位研究员突发奇想想到的。当然从想法到落地还是很难的，据他所说用了几个月。
2、DS-V3（2024年12月发布，从V2到V3之间他们也发布了不少模型，包括图文模型、统一多模态模型，这里不做过多介绍）发布时候引来了极大的关注，也是DS第一次大范围出圈，主要就是其训练成本低的令人吃惊。但需要注意的是，论文中所提550万美元训练成本实际上是按照租用H800训练的情况按出租费计算的，并没有算进数据和人工的成本。DS-V3和DS-V2采用了相同的MoE架构，但DS-V3引入了MTP（Multi-Token Prediction，多token预测，下图）机制。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-6.jpg

传统的LLM，每次只生成一个token，这种机制叫做NTP（Next-Token Prediction，次token预测）。MTP顾名思义就是一次生成多个token，这种想法并非DS原创，最早是Meta在24年4月提出的。但是DS对MTP架构进行了改进，那就是Meta的MTP，同时生成的多个token之间没有联系，相当于上文结束直接预测接下来的N个token。而DS的MTP，通过对MTP模块的重新设计，使得同时生成的多个token之间有了相互的联系，具体来说就是生成的第1个token会引导生成的第2个token会引导生成的第3个token……以此类推（此外这些MTP模块的输入是embedding而非Meta MTP的logits，这点解释起来会有点复杂但实际上很简单我就不说了）。DS-V3通过采用MTP，主要优点是：①MTP对数据的利用率更好②MTP在生成时可以通过更好的预先规划产生更好的生成结果。
除了架构上的升级，DS-V3的成本之所以能做到那么低，主要原因是DS优化了训练的方法。我并非并行计算工程师所以看不太懂这部分的内容，只能大致总结为几点：①采用FP8混合精度训练（下图）。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-7.jpg

一般来说现在的大模型都采用BF16精度训练，而DS-V3原生采用FP8精度进行训练，只有一些关键的参数采用BF16/FP32精度训练。FP-8精度训练的效率是BF-16精度约1.6倍。他们为了稳定的FP8训练对运算底层操作进行了大量优化，因为英伟达本身没有对FP8进行太好的优化，毕竟大部分AI企业都是再用BF16进行训练；②优化了并行流水线（pipeline，下图）

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-8.jpg

如果说前面量化训练我还能看懂一些，这一部分我就完全看不懂了。只能看出他们通过重叠优化前向和反向传播过程中的计算和通信来提升pipeline并行效率，同时优化了节点（节点指一个计算单元，一般一个节点会有多张计算卡，跨节点通信一般是通过网线传输）之间的通信。他们这些优化可不是瞎优化的，而是针对他们自己的MoE架构的定制化优化，修改了英伟达原生的pipeline来最大化训练和推理效率。这些优化，再加上他们一次成功，没有返工的情况（这点很可贵，去年Amazon花14亿美元训练大模型结果练崩了，就是Amazon Titan），共同造就了DS-V3“AI拼多多”般的低成本（下图）。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-9.jpg

他们在探索这么多之后对硬件设计提出了自己的看法（下图）

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-10.jpg

其实主要就是提高FP8训练效率，实际上如果硬件设计更好些训练效率还能再提高。老黄的卡对FP8训练支持的一般所以他们做了大量修改才做到了稳定训练。
3、DS-R1（2025年1月公布）。DS-R1相比于V3，其创新性主要体现在“范式转换”上。一直以来，LLM的训练方式都是让模型跟着数据学生成，这种方式称之为监督学习（Supervised Finetuning，SFT）。而R1采用了强化学习（Reinforcement Learning，RL）的方法。RL实际上不是新东西，从玩游戏到机器人都能看到RL的身影。RL通俗来说就是让模型（agent）和环境（environment）进行互动，然后通过其互动的结果进行打分（reward），从而训练模型。大语言模型此前采用的RLHF（人类反馈强化学习）也是RL的一种。但和RLHF不同的是，R1采用的RL方法（称为GRPO，Group Relative Policy Optimization，组相关策略优化，下图）并不需要一个庞大的人类标注数据库。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-11.jpg

他的训练方式很简单：让模型自己生成过程，最后只检查结果是否正确。如果是数学题，那么就看输出的结果文本；如果是编程题，那就看运行后的结果。而DS发现，在V3的基础上直接采用这种简单的RL，竟然能让新的模型具有推理（Reasoning）的能力，而且随着训练步数增多，其思维链（Chain-of-Thought，CoT）的长度也越来越长（下图），

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-12.jpg

并且发现模型开始在推理过程中自我反思（下图）。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-13.jpg

这个纯RL方法练出来的模型就是R1-Zero，叫Zero是受到AlphaGo-Zero的启发（AlphaGo-Zero是完全RL训练出来的模型，一开始没有教模型任何围棋知识，一切全靠模型自己摸索，最后达到超越人类）。
但是DS发现R1-Zero的CoT并不是很完美，最大问题是可读性很差。这相当于模型在自己练自己，没有额外的指导就会产生这样的效果。所以他们利用R1-Zero生成了一批带有CoT的“冷启动样本”，然后对V3进行了一次SFT，这样就获得了一个初步能够进行推理的模型（称为模型1）。接下来他们对模型1进行一次基于GRPO的RL（和R1-Zero一样），然后用这个模型1生成一批高质量的推理数据集。接着，再用V3生成一批没有推理的数据集（主要用于保证模型的文科类能力，比如写作、事实问答）。然后将这两个数据集合并（文理科合并），重新对V3进行SFT，获得模型2，再对模型2进行基于GRPO的RL，最终获得R1。整个流程如下图。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-14.jpg

可以看到，R1的训练本质上是一个“左脚踩右脚”的过程（需要和之前所谓的“左脚踩右脚”的SFT区分开，那个是拿合成数据对模型进行SFT，结果效果很差），全程没有使用人工标注数据，从RL到冷启动到SFT到RL，全都是依靠V3自己的能力。R1证明了一件事：就是如果基础模型能力够强（如V3），在RL过程中它就能自己学会推理。这也是为什么国外AI圈的人看到DS-R1之后惊呼AGI竟然离我们如此之近的原因：因为R1说明能力足够强的模型是可以不依靠人类自己进化的（当然，严格来说现阶段的reward还是需要标签的）。
接下来呢？其实DS自己的技术报告里面写的很清楚了，R1并非完美，他们已经在着手改进。有几个重点：①通用能力：函数调用、多轮对话、复杂角色扮演、格式化输出，这些任务R1完成的一般；②语言混合：目前R1针对中英文做了优化，CoT也主要是这两种语言，需要对更多语言进行优化；③提示工程：目前R1对提示很敏感，few-shot不如zero-shot；④软件工程：由于复杂软件的验证时间长效率低，所以在RL阶段没有对复杂软件任务的情景进行训练。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？-15.jpg

这几点我认为都是很容易解决的，我个人的提议是，最好能在RL阶段让模型在CoT里学会自己调用工具（比如使用计算器、网页搜索、调用API等），这样模型的CoT能力会有极大的提升（本质上是一种具有agent能力的CoT）。

发表于昨天 14:33

我看有人说弄出个开源deepseek也就是个赔钱货。只能说你太狭隘了。
钟爷目前是世界第一大贸易顺差国，AI挣不挣钱根本不重要。
但是能让你老美的AI不挣钱真的很重要！！

发表于昨天 14:44

deepseek写的沁园春
江河裂帛，五岳挥斤，铸此昆仑。有千载龙吟，长城雪咽；一襟雷动，沧海潮吞。甲骨镌魂，青铜淬魄，星火燃于旧斧痕。风云外，看黄河摆尾，直下天门。
从来铁血生根。纵劫火焚霄未裂身。记铁轨穿云，钢花烫月；箭破星河，稻浪堆金。亿手同温，昆仑新雪，削作人间白玉樽。待春至，唤长江研墨，重写乾坤。

如何看待DeepSeek在推特油管一夜爆火，以至于外国网友纷纷怒喷OpenAI？

本周热门