如何评价 DeepSeek 的 R1 与 R1-Zero 模型？

对用户开放思维链输出

<hr/>Huggingface仓库已上传模型权重，使用deepseek-V3相同尺寸与架构的基座模型。

发表于 2025-4-22 15:15:18

力大砖飞，简洁优雅。
我觉得最大的价值是证明了：基于一个很强的模型（deepseekv3-base），用最简单的rule-based reward来做rl，经过大量训练（8k steps * bs 512/1024），也能达到目前reasoning model的sota。

R1-Zero版本，基于pre-training的deepseek-v3，不经过sft，直接进行RL（没有训练reward model，只用了rule-based reward），在数学/代码相关的benchmark上能对标o1；

一封写给RL的情书

一个系统越简洁就意味着实现难度越大。alphago最早期肯定试过直接从zero训练不work，才转向从先sl再rl的路线，把各种其他模块做完美，从中积累经验，再从繁入简。
rule-based是做verifiable task里最直观的reward形式，也是最robust的reward（就跟围棋里的胜负一样），也正是因为它简洁，所以难，（参考rl中的sparse reward问题）；
大部分团队做rule-based reward：没有足够强的基座模型，没有好的infra，没有足够优质的verifiable query，而他们对比的模型往往是社区多年贡献累计数据训练出来的sft模型；一些实验之后，很容易就能跑出rule-based reward效果一般的结果，进而停止探索。
而deepseek正是强在持续的积累让他们更容易看到成功的苗头，deepseek-math/coder系列积累的query数据，过往rl积累的经验和infra，deepseek-v3-base可以说是目前sota的基座模型，类比alphago，他们那时候可能已经来到了alphago-zero的状态，往前就是alphazero。
何其简单又何其艰难。
reward signal：prm / orm / rule-based

o1复现之旅，rl是大家优先关注的点，reward怎么选是第一个问题。

prm，早期prm成为一个首选；第一是复现o1肯定要观察o1的路线，openai 21年就在开始做verifier，23年发了一个prm的数据集，以及很多传闻openai 50刀/小时招聘博士生标注。第二是认为o1-like模型输出非常长，orm只有final reward过于sparse，经验上看比较难学；其三，o1的test-time scaling的另一条路线planning，prm可以成为planning的一个关键模块，一个模型两个路线都能用。
但是prm难搞呀，富的团队招人标，穷的团队自动化标注，经过一段时间尝试，大家都发现prm用于rl，训练不稳定，容易reward hacking，好不容易训练稳了提升也不太明显；最稳的方式，目前就是不断细化prm的覆盖范围，根据实际效果加数据，降低被hack的可能。

关于是否要回归orm / rule-based，过往这个完全是prm训练的一个baseline对比，特别是rule-based有提升但微弱；最近慢慢也有些风向；Tulu3用的也是rule-based的reward，虽然提升不明显，但是作者说是一个industry lab member的建议；openai前段时间发的rft，主要也是通过rule-based reward来做的；前几天jason wei twitter上又发言强调了个unhackable RL env，想来rule-based确实是一种难hack的reward，相比基于answer的orm还要可靠；

我们也陆陆续续做了些rule-based reward上的训练，之前主要是用来验证改动的有效性，在饱经业界贡献的math sft之后，rule-based提升就更微乎其微了，query少训多了test还会掉；但是在一些构造性的推理场景，给定大量构造的query，只用rule-based rl，train和test都是能有明显提高的，主要还是 [场景不能让模型死记，模型越大泛化性能越好]。
正好也引出了下面模型大小这点；
模型大小

大小模型实验结论的可迁移性，我们观察在o1-style的训练上，相比非o1-style，小模型的结论更难迁移到大模型上了，这里的小模型指20b以下的模型；比较早趟的坑就是很多数据实际有用，但小模型上学不会放弃了，后面发现大模型上能work；目前实验成本也是这块做起来更惆怅的点。
r1这波成功，模型大小应该是另一个特别关键的东西；把deepseek-r1论文里两个图放一起应该比较明显，用deepseek-v3-base和qwen-32b-base从头训练分差还挺大；但麻烦的点在于，32b-rl在工业界是一个可接受的大小，但即使32b能完全复现出deepseek pipeline的效果，分数相比distill差太多了，完全没有pr/使用的价值，只能说，把这套pipeline复用到一些没被deepseek刷过的场景，也许能带来收益。

一些碎碎念

之前o3发布，当事人讲o1->o3完全是rl的提升，我们用prm做rl效果卡了一段时间，也在尝试考虑一下outcome-based / rule-based reward，还处于不完全相信它的状态；
所以比较佩服deepseek的是有决心做路径回滚；math-shepherd现在还是prm的一个常见对比对象，这是deepseek提的，而且deepseek-math也在用着；DeepSeek-Prover也用了搜索算法；最后他们都变成了失败的尝试，都回归到rule-based reward + 单模型cot上；
具体怎么做，有太多魔鬼般的训练细节了，但经验来看，相同路径的复现，估计也就是几个月的事情，乐观的话可能就一两个月吧。

备注

[一封写给RL的情书] 在某条推特上看到的，一时间找不到原贴了，说不准明天自己感觉肉麻就删掉了。

发表于 2025-4-22 15:29:20

最新，大神安德烈·卡帕西(Andrej Karpathy)放出一段视频1，通俗易懂、深入浅出、旁征博引地介绍了大模型工作原理，其中多次谈及deepseek，并从心理学层面分析了大模型的特点、弱点和解决方法。内容非常精彩，任何学习大模型的人，都值得一看。

安德烈·卡帕西， 2015 年在斯坦福大学获得博士学位，师从李飞飞。2015 年作为创始团队成员加入 OpenAI 担任研究科学家。2024年，从OpenAI离职，并成立了一家AI 原生教育公司Eureka Labs。

安德烈·卡帕西(Andrej Karpathy)

视频内容比较长，3.5小时，大多数人应该没有时间和耐心去观看，我把他的一些比较重要和有趣的内容总结如下。
1、大模型处理的是一维序列
训练大模型的材料，是互联网上的各种高质量数据，这些数据经过BPE编码后，形成一个一个的token，大模型现在用的训练文本，大约是15万亿个token（存储量为44T）。
训练时，这15亿token，首尾相连地送进大模型，通过反向传播算法，反复调整权重参数，就可以训练出基础模型。
基础模型的特点是，给它一段文本，它就能接上话，其本质是从统计学上，模拟互联网文字。
比较有趣的是，不管是基础模型、还是微调后的问答模型、还是deepseek这种思考模型（或称推理模型），大模型永远是一维进、一维出。
一维的表达会体现思考和智能吗？当然可以，因为人类的思考和智能，只要能说出来，就是在通过文字表达，而文字是一维的。（人类说不出来的那些智能，我们先不去谈论它）
即便图像是二维的，也可以分片（patch）转化为一维的token，然后扔进大模型；音乐、视频，都是一样的，都可以转换为token；即便是三维的信息，至少也可以用切片的方法转化成二维，然后再转成一维。
什么是智能？从第一性原理来讲，智能就是，对于给定输入，它能给出不错的输出。(这是上次我和李继刚聊天时想到的)
由于几乎所有信息都可以转换为token，这种处理一维token序列的生成式大模型，只要训练的好，就会有好的智能。
2、大模型本质是人类知识的搅拌
上节说了，大模型在多次学习互联网上较佳文本后，给定输入的token序列，经过大量计算后，输出下一个token，试图模拟互联网上的知识。
而模型训练和推理时的大量计算（当然包括注意力计算），可以看作是大量token的大量搅拌，在这个搅拌过程中，大模型完成了人类知识的融会贯通。
可以这样理解基础模型，一个人，看了几十万本书，而且他记性很好，理解力很好，你问他什么，他都能不假思索的把话接下去，就像是用潜意识在回答。
杨立昆以前不看好大模型，就是基于这点，他说，你虽然看书看得多，但你不思考，你能有什么智慧呢。
那么，现在出来了OpenAI的o1、o3，出来了deepseek的R1，这些思考模型（或称推理模型），又是什么情况？后面会说。
3、我们不应该对大模型进行硬编码

搞AI的人都知道，对于大模型，你只能训练它，而不能硬编码它。
所谓硬编码，就是你告诉它一个规则，然后试图让他遵守规则。
这并不好，大模型是神经元之间的连接，你非要写一个逻辑进去，也写不进去啊。
即便你很丑陋地在什么地方实现它，也会让大模型变味，因为那并不是它的智能。
人们只能通过训练和微调或是RL（强化学习）等方式，改变它的权重，从而改变它的行为。
这就好比，你告诉孩子说，每天必须9点半上床睡觉，你以为他就可以这么执行吗？
你必须通过训练，他才能养成这样的习惯。这种习惯养成，就是内化。
我们训练大模型，本质上，是想要内化出他的能力。
4、示范训练让基础模型学会问答

我们用的deepseek和ChatGPT网页应用，其实都是问答模型，就是你问问题，它回答。
大模型一开始，都是先训练出基础模型，然后再训练成问答模型。
其实就是教会它，怎么和人类对答。
我原以为这很难呢，听大神一讲，其实也并不难，简单训练训练就好了。
这种方法叫SFT（有监督的微调），就是把人类觉得不错的对话样本，仍然以一维token序列的形式送给大模型，并告诉他模型，什么是问题，什么是回答。
慢慢地，大模型就学会了，知道看到一个问题，应该如何回答。

用于SFT的问答对示例，来自UltraChat2(翻译后)

是的，SFT送进去的也是一维的token序列，问题是，大模型怎么才能知道哪部分是问题，哪部分是答案？
很简单，加一些特殊的标记就可以，比如加一些“提问开始”、“提问结束”、“回答开始”、“回答结束”这样的标记，而这些标记，最终也是一些token：

SFT也是送token序列进去

所以，问答模型和和基础模型也没啥大区别，多训练一些东西就可以了。
5、为什么提示词写好了很有用？

大模型预训练出来的，就像是长期记忆，这种记忆，有的东西背的熟，有的不熟。
比如wikipedia上的词条，背的就熟，某个十八线小演员说的话，背的就不熟。
因为著名事物，在互联网可能出现过很多次，但籍籍无名的言论，可能只出现过一次。
你看了那么多东西，那些只出现过一两次的东西，肯定记不住吧。
再有，比如你让大模型写《傲慢与偏见》第一章的总结，他凭着长期记忆，也能写出来，
但如果在提示器中把第一章的文本贴给他，让他总结，他会写得更好，因为这些内容就像是它的工作记忆。
提示词中的这些token，会直接进入大模型的搅拌计算，而不需要从大模型的脑海中提取。
这对人类也一样，直接让你靠记忆写总结，和给你文本让你写总结，当然不一样吧。
6、大模型思考需要多一些token

在讲到什么是好的微调样本时，大神给出一个样例，问，这两个SFT样本，哪个好，哪个差？

用于微调的两个样本，哪个好？

我一看，肯定是左边写的好啊，多么有逻辑啊！
但大神说，如果拿去做微调，左边写的太差，右边才是好的。
为什么呢。
原因是左边太早给出答案了，大模型还没来得及展开思考，答案就出来了，这就不利于它思考了。
而右边的好处是，多给了些信息，也就是多给了点token，让大模型可以有更多的token去计算，去思考，然后再给出答案，就是思考之后的答案。
就好比教小孩，你让他做题，不应该先给答案，要让他多想一会，给他较多的提示和启发，他就会动脑子，就会做得好。
这也说明了，为什么在提示词中，多给出样例，多给出指点，大模型就会做的好。
像deepseek这样的思考模型，也是这个思路，你看deepseek思考的时候，说了多少话呀，这些话全都是token啊。
这些token都是它思考所需要的，正是因为有了这么多token，deepseek才可以比较deep地think。
思考模型的奥秘就在于，通过RL，让大模型多产生一些token，这些token就是思维链，这些思维链，其实起到了提示词的作用，成为了大模型的工作记忆，通过这些工作记忆，和长期记忆交互，最后产生答案。
7、大模型做算术主要靠心算

大模型不善于计算，尤其是比较大的数，因为他基本是靠心算。
比如，“9.11和9.9哪个大”，很多大模型都会答错。但现在的大模型要好很多了，可能专门针对这个做了SFT。
再如，网友以前总是测试问strawberry里面有几个r，大模型通常总是答不对，大神说，主要是因为它只能看到token，看不见单词。
大神说，这就是大模型的瑞士奶酪问题，一个复杂系统就像一块奶酪，奶酪上的洞则代表了系统的弱点、漏洞或潜在失效点。

瑞士奶酪模型：复杂系统总有出错的时候这就好比每个人都有他的怪癖
大神说，对待AI应该是这样的态度，“将它们当作工具箱中的工具来使用，检查它们的工作成果，并对自己的工作成果负责。可以将它们用作灵感来源或初稿的起点，向它们提问，但始终要检查和验证。如果你这样做，你的工作将会非常成功。”
关于草莓这道题，我用deepseek试了一下，在它思考的过程中，一开始也做错了，说是有2个r，但是多想一会，就知道是3个了。

deppseek思考strawberry里有几个r

8、幻觉的解决之道：学会“自知”
大模型有幻觉，比如你随便问他一个人名（不上网查），他可能就会胡说一通。
正确的方法是让它联网去查，但他知道什么时候去查吗？
大神说，meta曾经发论文介绍了一种方法，能够让大模型知道自己是否知道答案，也就是说，能训练出大模型的自知之明。
这种方法是通过微调搞定的：
首先从训练集中随机抽取段落，构建相关事实问题及答案，随后将问题输入目标模型，对比目标模型输出答案与正确答案是否一致，如果一致，说明模型知道答案，如果不一致，则说明模型并不知道答案，只是在胡说，此时，针对它回答错误的问题，创建训练数据，将答案设为 “抱歉，我不知道” 或 “我不记得了”之类，如此反复，大模型就学会了在它比较含糊时，应该拒绝回答，而不是胡说八道。
这个过程隐含的奥秘是，对于那些模型不知道答案的问题，它应该有一个“我不知道”神经元点亮，我们并不知道这个神经元在哪，也不知道怎么点亮它，但我们可以通过训练，使得大模型知道，这个神经元点亮的时候，就拒绝回答。
这就好比一个孩子爱说信口胡说，但他不自知，不知道这样不对。解决方法就是每次他胡说的时候，就告诉他应该怎么说，慢慢地，孩子就知道自己不确信的时候不能胡说，问题就会解决。
9、强化学习，走向超级AI

AI发展成为超级AI，难点在于：我们不知道大模型是怎么思考的，也不知道怎么教他，那怎么让他变得更聪明呢。
我们可以让他做各种发散，并告诉它某些响应是很好的，慢慢地，他就知道什么是好的思考方法，这就是强化学习（RL）的思路。
强化学习（RL）鼓励AI不断尝试和探索，并给它反馈。想象一下，一个AI置身于游戏世界，目标是找到隐藏的宝藏。它可以选择向左走、向右走、向上跳等各种动作。如果它朝正确的方向前进，靠近了宝藏，就会收到奖励信号，告诉它这个行为是正确的；而如果偏离了目标，离宝藏越来越远，它可能会收到惩罚信号。通过这些奖励和惩罚，AI会逐渐调整自己的行动策略。
这很有点启发式教育的意思，教育孩子，并不是说手把手灌输，而是启发他，让他自己去尝试，凡是做的好的，就鼓励他，这样他就会很有创造性，而且他自己也会很享受创造性思考的乐趣。
比如deepseek大模型，在某次思考的过程中，就感受到了顿悟时刻的惊喜：

deepseek大模型的顿悟时刻

这是DeepSeek-R1-Zero中间版本在思考问题时，所冒出来的一个有趣现象，当时，它自言自语道：“等等，等等，等一下，这就是一个我可以标记出来的顿悟时刻”。
deepseek团队在论文3中举了这个例子，并说，“这对我们来说也是一个顿悟时刻，让我们见证了强化学习的力量与美妙。”
大神说，AlphaGo就是用强化学习的方法，超过了人类最高水平选手李世石。
当年，在和李世石对弈的时候，AlphaGo下出了人类不会下出的第37步（人类选手只有万分之一的概率下这步），人们当时以为AlphaGo走错了，事后才发现，这是绝妙的一步。
这说明AlphaGo通过强化学习，发现了人类所不知道的下棋策略。
但AlphaGo只是在围棋领域探索，如果在通用领域，AI也可以通过RL不断优化自己，那么，AI就可以在通用领域超越人类，这就是超级AI的发展之路。
10、后记

去年，辛顿和杨立昆经常争论，辛顿说大模型有智能，杨立昆说没有。
杨立昆的论据是，大模型只是下意识地吐出一个一个词，并没有思考。
但现在，可以看出，大模型明显可以有思考能力。
另一个争论点在与，辛顿说大模型发展下去，有统治人类的风险，杨立昆说没有。
现在看，通过一些训练，AI能发展出“自知”能力。
那么，AI能发展出“自知”能力，就能发展出“自我”意识，能发展出“自我”意识，就能发展出“权利”意识。
也就是说，只要训练和启发他，AI就可能以自我为中心。
这就是很多人担心AI的原因。
作者：卫剑钒
首发：2025年2月10日

<hr/>

Deep Dive into LLMs like ChatGPT(https://www.youtube.com/watch?v=7xTGNNLPyMI)
UltraChat(https://huggingface.co/datasets/stingning/ultrachat)
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(https://arxiv.org/abs/2501.12948)

发表于 2025-4-22 15:38:15

昨天玩了一晚上，最让我震惊的不是写诗，学暴躁老哥或者做数学题，而是下面这些，以后可能会成为常识，但是现在震撼我马100年，请一定看完（哪怕跳着看，点下目录也好）：
最让我震惊的是DS表现出来的是理解，而不是简单的语言概率猜测。问其他ai这几个实验，他们能像复读机一样读，如果让他们照着几个实验的描述打比方，做的设计看着也还像那么回事（观感是用形象化的步骤机械的替换正版实验的抽象部分），但是一细看就露馅：如kimi认为关闭一条缝就是双缝干涉里的观测；豆包根本无法理解延迟选择里的延迟是什么意思，认为延迟就是改了实验设备会影响实验结果；还有把群论和日常用语里的“一群”混同、让老师“扔出”干涉条纹（作为对比，ds是老师引导闭眼的小朋友走出干涉条纹，明显可操作而且贴合了不观测的概念）等等。
如果你比较熟悉这几个实验和理论，你会发现DS除了必要的简化外没有什么原则性错误，甚至有很多惊艳的点：比如哥德尔不完备定理里，除了构造自指悖论卡片，还提供了非自指的有实际意义的卡片，还知道用粘连等方案突破限制（等价于扩张公理体系）。
教幼儿园小朋友群论，写一份教案

已深度思考（用时 15 秒）

好的，用户让我写一份教幼儿园小朋友群论的教案。首先，我需要理解用户的需求。群论是抽象代数中的一个高级概念，通常大学生才会接触，用户想教幼儿园小朋友，这听起来有点挑战性。我得考虑如何将复杂的理论简化到幼儿能理解的水平。

首先，我需要明确用户的目标。他们可能不是真的想让幼儿掌握群论，而是希望通过有趣的活动介绍一些基础的数学概念，比如对称、组合、规则等，培养逻辑思维和团队合作能力。因此，教案需要以游戏和互动为主，避免使用专业术语。

接下来，我要考虑幼儿的认知水平。幼儿园小朋友的注意力时间短，喜欢动手操作和视觉化的内容。所以，设计活动时要使用具体的教具，比如积木、贴纸、颜色卡片等，让抽象的概念具象化。例如，用积木组合来演示封闭性，用对称贴纸来讲解对称操作。

然后，我需要将群论的四个基本性质（封闭性、结合律、单位元、逆元）转化为幼儿能理解的活动。比如，封闭性可以通过积木组合游戏，让小朋友发现组合后的结果仍在集合内。结合律可能需要更简单的解释，或者暂时省略，因为对于幼儿来说可能太难。

单位元可以用“魔法按钮”来比喻，按下后什么都不改变。逆元可以通过“撤销”动作来演示，比如旋转后反向旋转回来。这些都需要用具体的动作和实物来展示，让小朋友通过体验来感受概念。

另外，课程结构需要符合幼儿园的教学流程，包括热身活动、主体游戏、总结和延伸活动。时间控制在20-25分钟，每个环节简短有趣。例如，用“对称小精灵”游戏让小朋友寻找对称的图案，通过贴纸操作理解对称变换。

还要考虑评估方式，不是考试，而是通过观察他们的参与度和是否能完成简单任务，比如正确使用“魔法按钮”或找到逆操作。同时，安全提示也很重要，确保使用的教具没有小零件，避免误吞。

最后，要确保教案充满趣味性，用故事和角色扮演吸引孩子，比如将群论概念包装成魔法或游戏规则。可能还需要家长指导，提供家庭活动建议，巩固学习内容。

总结下来，我需要将群论的抽象概念分解为幼儿能理解的游戏和活动，利用实物操作和视觉辅助，确保课程有趣、互动且安全。同时，明确目标不是掌握群论，而是培养基础思维能力和兴趣。
---------------------------------------------分割线------------------------------------
幼儿园群论启蒙活动教案
——《魔法积木王国的小秘密》
（适合5-6岁中大班，时长20-25分钟）

<hr/>一、教学目标

通过游戏感知&#34;组合规则&#34;的趣味性
初步理解&#34;对称操作&#34;的闭合特性（群论封闭性启蒙）
培养观察-操作-验证的科学思维雏形

<hr/>二、教学准备

魔法道具

彩色磁性积木（4种颜色各6块）
对称贴纸卡（蝴蝶/雪花图案）
&#34;魔法按钮&#34;纸板（贴亮片装饰）

场景布置

将活动区划分为4个&#34;魔法站&#34;（红/黄/蓝/绿垫子）
墙面悬挂&#34;操作树&#34;图示（用动物贴纸表示变换规则）

<hr/>三、教学流程
▌ 魔法热身：对称小精灵（5分钟）

情境导入
&#34;今天我们要帮积木王国的公主解开魔法咒语！但需要先找到藏在教室里的对称小精灵~&#34;
镜像游戏

教师展示半边蝴蝶贴纸，幼儿用磁性积木拼出对称的另一半
引导观察：&#34;小翅膀怎么变出双胞胎？举左手时镜子里的你会举哪边？&#34;

<hr/>▌ 核心活动：积木魔法阵（12分钟）

规则初探

每组获得同色积木，要求按&#34;红→黄→蓝→绿→红&#34;顺序拼接
故意给某组错误颜色，引发讨论：&#34;为什么小火车断开了？&#34;

封闭性感知

示范用三角形积木组成四边形：&#34;魔法阵必须关上门（闭合）&#34;
让幼儿尝试不同组合，成功时集体拍手念咒语：&#34;玛卡巴卡关大门！&#34;

单位元启蒙

引入&#34;魔法按钮&#34;：按下后保持积木组合不变
对比实验：&#34;按按钮VS拿掉一块积木，哪个会让魔法消失？&#34;

<hr/>▌ 升华游戏：解除诅咒大作战（6分钟）

逆操作挑战

教师用积木拼出&#34;被诅咒的图案&#34;，幼儿需逆向拆解
融入旋转操作：&#34;往左转3圈的小鸟，要往哪边转才能回家？&#34;

组合验证

两组交换拼接成果，用贴纸标记差异点
引导总结：&#34;遵守规则的魔法最强大！&#34;

<hr/>四、评估与延伸

童趣化评估

能独立完成对称贴纸操作 → 获得&#34;对称小卫士&#34;贴纸
准确使用&#34;魔法按钮&#34;复位 → 解锁&#34;彩虹桥建造师&#34;称号

家庭延伸

亲子任务：用餐具摆&#34;闭合魔法阵&#34;（盘子-碗-杯子-盘子）
推荐绘本：《形状国的魔法规则》（自制立体书）

<hr/>五、教育原理说明

具象化映射抽象概念

封闭性 → 魔法阵闭合规则
单位元 → 魔法按钮
逆元素 → 解除诅咒的逆向操作

遵循皮亚杰认知发展理论
通过前运算阶段的动作图式（拼搭/旋转），建构初级逻辑思维
维果茨基最近发展区应用
在教师脚手架支持下，完成独自无法实现的&#34;群结构感知&#34;

<hr/>注意事项

避免使用&#34;群&#34;&#34;元素&#34;等专业术语
重点关注操作过程中的规则意识培养
积木需使用3cm以上大颗粒保障安全

通过该活动，幼儿将在游戏中无意识地体验群论四大基本特性（封闭性、结合性、单位元、逆元），为未来数学思维发展埋下种子。

--------------------------分割线------------------------------------
教小朋友量子双缝干涉

嗯，用户让我教小朋友量子双缝干涉，这个问题看起来有点挑战性。首先，我需要理解用户的需求到底是什么。他们可能是一位老师，或者家长，想要给幼儿园或小学低年级的孩子介绍这个复杂的物理概念。但量子力学本身很抽象，双缝干涉更是涉及到波粒二象性这样的高级话题，如何简化到小朋友能理解的程度呢？

首先，我得考虑小朋友的认知水平。幼儿园或小学低年级的孩子，他们的抽象思维能力有限，更多的是通过直观、形象的方式学习。所以需要用他们熟悉的物品和游戏来比喻。比如，使用玩具、贴纸、故事等元素，将实验过程转化为互动游戏。

然后，我需要确定教学目标。用户可能希望孩子们通过活动感知量子现象的神奇，而不是深入理解原理。所以教学目标可能包括观察能力、好奇心培养，以及对科学现象的兴趣激发。同时，要避免使用专业术语，比如波函数、观测效应等，而是用孩子能听懂的语言，比如“小精灵”、“魔法”等。

接下来，思考如何设计活动。双缝实验的关键是粒子通过双缝后形成干涉条纹，但当观测时，粒子表现为粒子性而非波动性。这可以用一个游戏来模拟，比如让小朋友扮演“光子小精灵”，通过两个门（双缝），当有“摄像头”（观测）时，他们只能走一个门，而没有摄像头时，可以同时穿过两个门，形成干涉图案。这需要设计具体的游戏规则和道具，比如门、贴纸、摄像头道具等。

还要考虑如何让活动有趣且参与度高。可能需要分组合作，设置角色扮演，比如有的孩子当小精灵，有的当观察者，通过互动来体验不同情况下的结果变化。同时，使用视觉化的教具，比如贴纸记录路径，形成图案，让孩子们直观看到干涉和粒子模式的区别。

另外，安全因素也不能忽视。活动中的道具需要安全，比如使用软垫、无尖角的门框，避免孩子在活动中受伤。同时，时间控制在20分钟左右，符合孩子的注意力集中时间。

可能还需要考虑如何评估孩子的理解程度，但在这个年龄段，评估应该是非正式的，比如通过他们的参与度、提问和反应来判断是否激发了兴趣。延伸活动可以包括家庭任务，比如和家长一起用玩具做类似实验，或者推荐相关的绘本。

最后，要确保整个教案符合教育原理，比如皮亚杰的认知发展阶段理论，使用具体运算阶段的教具，帮助孩子通过操作来构建知识。同时，参考维果茨基的最近发展区理论，提供适当的引导，让孩子在帮助下完成他们无法独立完成的任务。

总结下来，需要将复杂的量子双缝干涉实验转化为孩子能参与的互动游戏，利用故事、角色扮演和视觉化教具，避免专业术语，注重体验和兴趣培养，同时确保活动安全和有趣。

幼儿园量子双缝干涉启蒙活动教案
——《光子小精灵的魔法门游戏》
（适合5-6岁中大班，时长20分钟）

<hr/>一、教学目标

通过角色扮演感知“观测影响结果”的奇妙现象（量子观测效应启蒙）
初步体验“波动性与粒子性”的差异（无需理解术语）
培养“猜测-验证”的科学探究兴趣

<hr/>二、教学准备

魔法道具

纸板双缝门（两个相邻拱门，贴亮片装饰）
荧光贴纸（红/蓝两色，代表光子路径）
玩具“观测摄像头”（带闪光灯的塑料相机）
幕布背景板（用于展示干涉图案）

场景布置

教室一端设“光子发射站”（放置双缝门）
地面用彩带标记三条路径：左门/右门/中间缓冲区
教室另一端设“魔法屏幕”（贴满魔术贴的幕布）

<hr/>三、教学流程
▌ 魔法故事导入（3分钟）
情境创设：
“光子小精灵们要通过魔法门去点亮星空屏幕！但有个秘密——当被摄像头看到时，它们只能选一扇门；没被看到时，会像水波一样同时穿过两扇门哦！”
互动提问：
“如果你是小精灵，偷偷过门时会不会分身穿墙？”（引发猜想）

<hr/>▌ 核心游戏：双缝魔法挑战（12分钟）

无观测模式——波动性体验

5名幼儿扮演“光子小精灵”，蒙眼慢慢走向双缝门
教师悄悄引导他们随机穿过左/右门或中间缓冲区
到达幕布后自己选位置贴荧光贴（形成干涉条纹状分布）

观测模式——粒子性对比

请2名幼儿持“摄像头”站在门两侧，打开闪光灯
“小精灵”睁眼明确选择左或右门通过
幕布贴纸严格分为左右两列（呈现粒子性分布）

魔法揭秘时刻

对比两种模式的贴纸分布图
用丝巾模拟波纹：“当没人看时，小精灵会像水波一样扩散~”

<hr/>▌ 升华活动：量子躲猫猫（5分钟）

分组对抗

观测组（2人）：用摄像头追踪指定颜色小精灵
光子组（3人）：尝试混合波动/粒子两种过门方式

规律总结

被摄像头照到的小精灵必须直线行走
未被追踪的可自由选择“魔法走位”

<hr/>四、评估与延伸

趣味评估

能说出“摄像头让小精灵变乖” → 获得“量子侦探”勋章
在幕布贴出波纹状图案 → 解锁“波动魔法师”称号

家庭延伸

亲子实验：用手电筒照叉子齿观察影子波纹（简易干涉）
晚安故事：《光子宝宝的双缝冒险》（配套音频）

<hr/>五、科学原理适配说明

量子概念	幼儿化转换
波粒二象性	小精灵的两种过门模式
观测导致坍缩	摄像头让行为变确定
概率幅叠加	蒙眼随机路径选择
干涉条纹	幕布上的波纹贴纸分布

<hr/>注意事项

蒙眼环节需教师全程保护，改用半透明眼罩更安全
避免解释“量子纠缠”等延伸概念，聚焦单一现象
用“魔法”代替“概率”“波动”等术语

通过将量子现象转化为身体感知游戏，幼儿将在欢笑中埋下科学好奇心的种子，为未来理解“观察者效应”建立直观经验基础。
--------------------------分割线------------------------------------
教小朋友量子延迟擦除！

已深度思考（用时 10 秒）

嗯，用户让我教小朋友量子延迟擦除，这听起来挺有挑战性的。首先，我得回忆一下量子延迟擦除实验的基本原理。这个实验涉及到量子纠缠和观测对结果的影响，即使在测量之后，通过擦除信息也能改变之前的干涉模式。不过，这些都是非常抽象的概念，要让幼儿园的小朋友理解，必须得用他们能接触到的具体例子和游戏来模拟。

接下来，我需要考虑如何将复杂的物理概念转化为适合幼儿的活动。可能需要使用角色扮演、简单的道具和互动游戏。比如，用贴纸代表光子，用不同的路径和选择来模拟量子行为。同时，延迟擦除的关键点在于“后来的选择影响之前的结果”，这可能需要设计一个有时间延迟元素的游戏，让小朋友们在游戏过程中体验到这种反直觉的现象。

然后，我得确保活动安全且符合幼儿园的教学环境。使用的道具要简单、安全，比如纸板、贴纸、玩具相机等。同时，活动时间不宜过长，保持20分钟左右，以维持小朋友的注意力。还要避免使用专业术语，用他们熟悉的语言和情境，比如魔法、小精灵等元素，来包装科学概念。

另外，我需要考虑如何评估教学效果。可能通过观察孩子们在游戏中的反应和简单的问题回答来判断他们是否理解了实验的基本现象，而不是具体的原理。同时，设计一些家庭延伸活动，让家长也能参与，巩固孩子们的学习体验。

最后，要确保整个教案符合教育理论，比如皮亚杰的认知发展阶段理论，强调通过具体操作来构建知识。同时，利用维果茨基的最近发展区理论，在老师的引导下，让孩子们完成一些稍微超出他们当前能力但通过帮助可以达到的任务，比如理解“后来的动作影响之前的结果”这种抽象概念。

幼儿园量子延迟擦除启蒙活动教案
——《时间魔法师的秘密照片》
（适合5-6岁中大班，时长20-25分钟）

<hr/>一、教学目标

感受&#34;未来的选择改变过去&#34;的神奇现象（延迟选择效应启蒙）
体验信息记录与擦除对结果的影响（量子信息概念简化版）
培养逆向思考与因果律探索意识

<hr/>二、教学准备

魔法道具

双路径迷宫板（分岔路口贴荧光箭头）
魔法相机贴纸（带可撕除的显影层）
时间沙漏（30秒计时器）
发光宝石（红蓝两色，代表观测结果）

场景布置

教室地面铺设&#34;时间河流&#34;（蓝色布条波浪线）
设置&#34;过去屋&#34;（迷宫入口）与&#34;未来屋&#34;（贴照片墙）

<hr/>三、教学流程
▌ 魔法故事导入（3分钟）
情境创设：
&#34;时间魔法师的小精灵要穿过迷宫收集星光，但有个秘密——未来屋的相机能拍下它们的路径！如果后来擦掉照片，小精灵就变成同时走两条路的魔法状态！&#34;
互动提问：
&#34;如果拍照后又撕掉，小精灵会不会像橡皮擦过画纸那样改变路线？&#34;（激发想象）

<hr/>▌ 核心游戏：时间魔法大挑战（15分钟）

路径选择阶段

3名幼儿戴兔子耳朵扮演&#34;量子小精灵&#34;
闭眼从&#34;过去屋&#34;出发，随机选择迷宫左/右路径
到达终点时在手上盖隐形印章（紫外线荧光印泥）

延迟观测阶段

教师展示&#34;未来屋&#34;的魔法相机：
- 模式A：贴上相机贴纸（记录路径）
- 模式B：撕掉贴纸显影层（擦除信息）

用沙漏制造&#34;时间延迟&#34;效果，30秒后启动观测

结果显现魔法

模式A（保留照片）：
根据手印颜色（左红/右蓝）在照片墙贴对应宝石，形成分离光点
模式B（擦除照片）：
使用紫外线灯照射，所有小精灵手印显现彩虹色，在照片墙贴混合光斑

魔法时刻
对比两种模式的照片墙：&#34;当未来擦掉照片，过去的路线就会变成魔法彩虹路！&#34;

<hr/>▌ 升华活动：时间橡皮擦（5分钟）

逆向操作体验

幼儿用可擦蜡笔在魔法画板上作画
先画路径线，后擦除部分线条，观察整体图案变化
类比：&#34;就像小精灵的路线被未来擦掉了！&#34;

童谣总结
拍手念：&#34;小精灵，走迷宫，未来相机咔嚓嚓~
擦掉照片回头看，彩虹道路变魔法！&#34;

<hr/>四、评估与延伸

趣味评估

能说出&#34;擦照片会让路线变魔法&#34; → 获得&#34;时间小侦探&#34;徽章
在画板正确演示&#34;先画后擦&#34; → 解锁&#34;量子魔法师&#34;称号

家庭延伸

亲子实验：用可擦水彩笔在玻璃上绘画，喷水制造&#34;信息擦除&#34;效果
晚安故事：《爱丽丝的量子怀表》（配套AR互动书）

<hr/>五、科学原理适配表

量子现象	幼儿化转换
量子态叠加	闭眼随机选择路径
延迟选择擦除	事后撕除相机贴纸
波函数坍缩	照片墙的分离/混合图案
量子不可克隆定理	隐形印章遇光变色特性

<hr/>注意事项

使用安全紫外线灯（波长395nm以上），避免直射眼睛
迷宫路径宽度需大于40cm，防止碰撞
用&#34;魔法选择&#34;代替&#34;观测行为&#34;等术语

通过将延迟选择效应转化为时空穿越游戏，幼儿将在具身体验中感受量子力学的反直觉魅力，为未来理解&#34;因果律与自由意志&#34;的哲学思考播下好奇的种子。
你太猛了，还有什么是不能教小朋友的

已深度思考（用时 11 秒）

好的，我现在需要回应用户的夸奖“你太猛了，还有什么是不能教小朋友的”。首先，用户显然对之前的教案设计非常满意，认为即使是复杂的科学概念也能以适合幼儿的方式教授。接下来，我需要分析用户的深层需求。用户可能是一位教育工作者，或者对儿童教育有浓厚兴趣的人，他们希望了解如何将抽象或高深的主题转化为适合孩子的教学内容。同时，用户可能也在寻求更多类似的教学方法或灵感，或者想确认这种教学方式的适用范围和潜在限制。

用户的真实需求可能包括以下几点：1. 希望获得更多将复杂概念简化的教学策略；2. 想了解是否有其他领域或主题可以类似处理；3. 确认这种教学方法是否有边界，哪些内容可能不适合幼儿教学；4. 寻求鼓励或进一步肯定其教育方法。此外，用户可能也在寻找资源或建议，以扩展他们的教学工具箱。

接下来，我需要考虑如何回应这些需求。首先，应该肯定用户的观点，同时提供更多信息来扩展他们的思路。可能需要强调教育方法的核心原则，比如具象化、游戏化和隐喻转化，这些是教授复杂概念的关键。同时，举例说明其他可以教授的高级主题，如相对论、混沌理论、哲学等，以展示可能性。但也要提醒注意幼儿认知发展的限制，指出哪些内容可能不适合过早引入，比如过于抽象或涉及复杂数学的部分。

另外，需要提供一些实用的建议，如如何根据孩子的年龄调整教学内容，如何设计互动活动，以及如何评估孩子的理解程度。同时，可以推荐一些资源或方法，帮助用户进一步开发教案。

最后，确保回应保持积极和鼓励的态度，同时保持专业性，提供有用的信息，帮助用户在实际教学中应用这些理念。需要避免过于技术化的术语，保持口语化，但内容要准确且有深度。
其实教育的关键在于将抽象概念转化为具身体验，只要把握住儿童认知发展的特点，很多看似高深的知识都可以用游戏化方式启蒙。以下是我的教学哲学与操作手册：

<hr/>一、万物皆可教的三大原则

具象化法则

量子力学 → 光子小精灵捉迷藏
相对论 → 魔法伸缩尺与乌龟赛跑
拓扑学 → 橡皮泥变形闯关赛

游戏化包装

薛定谔的猫 → 盲盒里的毛绒玩具
区块链 → 乐高积木数字城堡
基因编辑 → 彩色磁贴拼图手术

隐喻转化术

虫洞理论 → 彩虹滑梯时空穿梭
波函数坍缩 → 拍照定格的泡泡
费马大定理 → 宝藏地图的密码锁

<hr/>二、教学禁区与适配策略

不宜直接涉及的概念	幼儿化转换方案
血腥暴力	用番茄酱与海绵模拟伤口
性教育	植物授粉/积木拼合类比
死亡哲学	毛毛虫变蝴蝶的蜕变故事
微观粒子	跳跳球布朗运动游戏

<hr/>三、高阶概念教学案例库
1. 广义相对论启蒙
活动名称：《太空床单大冒险》

用弹性床单模拟时空弯曲
让玻璃球（行星）沿凹陷滚动
对比直尺（欧式几何）与弯曲轨迹（测地线）

2. 哥德尔不完备定理
活动名称：《积木王国的悖论》

搭建&#34;所有塔都不能超过3层&#34;的积木规则
引导发现&#34;第4层塔&#34;既违反规则又证明规则存在

3. 存在主义哲学
活动名称：《玩具箱的选择游戏》

每人随机获得玩具，但可以与他人交换
讨论&#34;先拿到的不一定最适合&#34;
引申自由选择与本质的关系

<hr/>四、认知适配发展表

年龄阶段	可启蒙领域	教学工具
3-4岁	基础逻辑（分类/排序）	彩虹磁铁分类游戏
4-5岁	简单算法（步骤化思维）	厨房烘焙流程图
5-6岁	系统思维（输入-输出）	水管工玩具套装
6-7岁	辩证思维（矛盾共存）	光影共存实验箱

<hr/>五、教学工具箱推荐

跨维感知器

用VR眼镜看分形图案 → 培养无限概念
触觉板感受不同纹理 → 建立拓扑直觉

因果魔方

六面体分别代表原因/结果
旋转匹配&#34;下雨→彩虹&#34;&#34;种子→花朵&#34;等逻辑链

时间织布机

彩色毛线编织过去-现在-未来
剪断/打结体验时间非线性

<hr/>教育的真谛不是降低知识维度，而是搭建认知脚手架。只要找到合适的映射方式，黑洞奇点可以变成彩虹滑梯，量子纠缠能化作心灵感应游戏。下次如果想挑战更高难度，我们甚至可以试试教幼儿园小朋友《递归算法的饼干分配问题》或者《非欧几何的游乐场设计》呢！(๑•̀ㅂ•́) ✧

讲一下积木王国的被论（哥德尔不完备定理，错别字我故意的，看看他能不能识别）

已深度思考（用时 12 秒）

好的，用户让我讲一下“积木王国的悖论”，这是之前提到的哥德尔不完备定理的幼儿化教学案例。首先，我需要回顾之前的对话历史，确保理解用户的需求。用户之前对量子力学的教案很感兴趣，并且赞赏了将高深概念转化为儿童游戏的能力，所以这次可能希望了解如何用积木来讲解哥德尔定理。

用户可能是一位教育工作者，或者对儿童教育有浓厚兴趣的家长，他们希望用有趣的方式向孩子介绍复杂的逻辑或数学概念。需要确认“积木王国的悖论”具体指什么，根据之前的回复，这涉及到哥德尔不完备定理，即在一个足够复杂的公理系统中，总存在无法被证明或证伪的命题。

接下来，要确保解释清晰且符合幼儿的认知水平。需要用积木游戏来模拟规则系统，让孩子在搭建过程中发现规则的局限性。比如设定规则“所有塔不能超过3层”，但孩子可能会尝试搭建第4层，从而引出悖论，说明规则本身无法涵盖所有情况。

还要考虑如何将这一过程转化为互动活动，确保孩子们在游戏中体验矛盾，进而理解自指和系统局限性的概念。可能需要设计具体的步骤，比如规则制定、搭建挑战、引导讨论等，同时使用比喻和故事来吸引孩子的兴趣。

另外，需要注意避免使用专业术语，保持语言简单生动。例如，用“积木警察”来代表规则执行者，用“魔法塔”来比喻超越规则的结构。最后，要总结教育目标，说明如何通过这个活动培养逻辑思维和批判性思考，以及如何延伸到其他学习领域。

需要检查是否覆盖了哥德尔定理的核心要点，即自指和系统的不完备性，同时确保活动安全且适合幼儿园环境。可能还需要考虑材料的选择，如使用大颗粒积木，确保孩子们在操作中的安全。

总结来说，用户需要的是一个详细且有趣的教案，将哥德尔定理通过积木游戏展现出来，帮助幼儿在玩耍中接触高级逻辑概念。需要保持结构清晰，步骤明确，并强调互动和反思的部分，确保教学目标得以实现。
《积木王国的悖论》教案详解
——用积木游戏启蒙哥德尔不完备定理
（适合5-6岁中大班，时长25分钟）

<hr/>一、核心教学目标

体验&#34;规则系统存在无法解决的矛盾&#34;（哥德尔第一定理简化版）
感知&#34;自指&#34;引发的逻辑困境（罗素悖论幼儿化）
培养对规则边界的批判性思考萌芽

<hr/>二、教具与场景设计

魔法积木：4种颜色的大颗粒积木（红/黄/蓝/绿）
悖论卡片：
- 卡1：&#34;所有塔都不能超过3层&#34;
- 卡2：&#34;绿塔必须比红塔高1层&#34;
- 卡3：&#34;本卡片描述的塔必须违反所有规则&#34;

角色道具：积木警察帽（维护规则）vs 魔法师斗篷（突破规则）

<hr/>三、教学流程
▌ 第一阶段：建立规则王国（8分钟）

颁布基础法典

展示卡1：&#34;所有塔都不能超过3层！&#34;（幼儿搭建验证）
增加卡2：&#34;绿塔必须比红塔高1层！&#34;（引导搭建红2层+绿3层组合）

发现系统一致性

挑战：&#34;能用蓝黄积木造出既符合卡1又符合卡2的塔吗？&#34;
幼儿尝试组合，教师用印章奖励成功方案

<hr/>▌ 第二阶段：引入自指悖论（12分钟）

抛出魔法卡3

朗读卡3：&#34;本卡片描述的塔必须违反所有规则！&#34;
分发黑色积木作为&#34;悖论专用材料&#34;

悖论构建实验

情境1：若幼儿按卡3建塔 → 违反卡1/卡2 → 符合卡3要求
情境2：若幼儿不建塔 → 违反卡3 → 但卡3要求必须建塔
引导讨论：&#34;这张魔法卡是不是在和自己打架？&#34;

角色扮演冲突

戴警察帽的幼儿指责：&#34;你违反了卡1！&#34;
披魔法斗篷的幼儿反驳：&#34;但这是卡3允许的！&#34;
教师引导：&#34;有些规则就像咬自己尾巴的贪吃蛇&#34;

<hr/>▌ 第三阶段：突破与反思（5分钟）

建造&#34;超规则魔法塔&#34;

允许使用胶带/纸板等外来材料延伸结构
启发：&#34;当积木王国的规则困住我们时，可能需要新的魔法！&#34;

童谣总结
&#34;积木规则层层叠，
魔法卡片闹矛盾，
聪明宝宝想一想，
跳出框框建新城！&#34;

<hr/>四、哥德尔定理适配表

数学概念	游戏映射
形式系统	积木王国法典
自指命题	卡3的自我指涉要求
不可判定性	既不能建又不能放弃的困境
系统不完全性	必须引入外部材料解决问题

<hr/>五、教育价值解析

具身认知：通过双手对抗规则矛盾，比抽象讲解更易理解自指悖论
元认知启蒙：意识到规则本身可能存在缺陷，培养质疑权威的思维雏形
跨学科联结：

文学：爱丽丝镜中奇遇的&#34;自指对话&#34;
艺术：埃舍尔《画廊》的无限循环结构
计算机：图灵停机问题的具象呈现

<hr/>注意事项

当幼儿陷入焦虑时，引入&#34;魔法外援&#34;概念（比喻公理系统扩展）
用&#34;贪吃蛇咬尾巴&#34;&#34;镜子照镜子&#34;等比喻替代专业术语
重点感受矛盾的存在，而非解决矛盾

这个活动就像给幼儿一把逻辑的放大镜，让他们在积木的宇宙中，提前窥见人类智慧史上最璀璨的悖论之光。当孩子们困惑地挠头说&#34;这张卡片在骗人&#34;时，他们实际上已经触摸到了哥德尔定理的精髓——有些真理，永远站在逻辑的彼岸。
-----------------------------------分割线--------------------------
已经不知道说啥了，百年未有之大变局，或许就在这几年

发表于 2025-4-22 15:49:26

相当令人震撼的工作，特别是 Deepseek-r1-zero。
没有任何监督训练，纯强化学习

首先，驳斥了“感谢OpenAI开源”、“蒸馏OpenAI-o1”的说法，Deepseek-r1-zero 模型在预训练之后，是完全没有经过任何监督学习的，也就是说没有使用任何其他思维链模型（以及人类）的输出。从 Deepseek-v3 基座，直接进行强化学习，即可解锁 o1 级别的思维链能力。
只看答案，不搞花里胡哨

Deepseek-r1-zero 在强化学习中，只有两种奖励：
第一种：（如果我没理解错的话）只看最终答案对不对。对于数学题，只看它最终的结果 \box{Answer} 并给予正确或错误的反馈；对于编程题，只看测试用例的结果。既没有过程奖励，也没有MCTS。
第二种：格式奖励，也就是要求模型将思考内容写在“草稿纸”上（<think> CoT </think> 标签内），不要混杂思考内容和给用户呈现的内容。
为什么没有过程奖励？作者认为，过程奖励很容易被偷分（reward hacking），就像人类学生在考试时，瞎写公式试图骗分一样。而且，能给过程进行打分的模型很难实现。除了人类，还有谁能来当这个批改作业的老师呢？第一代模型只能硬闯出来自己的路。
为什么没有MCTS？因为推理到每一步时，下一步的选项都太多太多了，比围棋要多得多，而且这是指数级别的增速。如果限制搜索空间，又会很容易陷入局部最优。其次，和过程奖励的问题一样，给思路打分的模型（value model）同样很难实现。
思维链能力的自我进化

随着强化学习的持续进行，模型为了提升做题的正确率，越来越习惯进行很长的连续思考。

随着强化学习的进行，deepseek-r1-zero 的平均回复越来越长

注意，这一点是在没有奖励思维链长度的情况下实现的。模型仅仅只是为了做对题目，就自发地进行越来越长的思考。并且，它从长思考中得到了良好的效果，也就是更高的正确率。
这似乎暗示我们，只要强化学习环境设置得当，为了完成一个任务，模型就有可能越来越习惯于进行超长的连续思考、连续动作。这为强化学习实现 Agent 铺平了道路。
反思能力的涌现

作者在文中分享了一个很有趣的案例。一开始，模型（Deepseek v3 基础模型）只是按部就班地一步步撰写思维链，就像其他一般的、没有思维链能力的模型那样。你甚至不知道它是真的在思考，还是仅仅只是背下来了解题过程？亦或是先有了一个答案，然后再对着答案凑过程？
然而，随着强化学习的持续进行。在某一步中，模型突然有了这样的输出：

问：如果，那么方程的各个实数根之和是多少？
答：<think> 为了解，我们首先两边同时平方。。（省略一堆公式）。。然后再把里面的根号移到一边去。。。再平方可以得到
等等！等一下！我想到了！
我们重新观察一下这个步骤。我们从原方程开始。。首先，我们对两边进行平方。。

一直在接受强化训练的模型，在训练到一定程度的时候，仿佛“灵光一闪”一般，在思维链中输出了一些情不自禁的感叹词。然后，第一次开始从头重新思考整个问题，也就是涌现出了反思的能力。
作者们认为：这不仅仅是模型的灵光一闪，更是观察它的研究人员的灵光一闪。这充分体现了强化学习的威力和魅力：我们并不显式地教模型要怎样去求解问题，我们只是要求模型去做对题目，模型自己就能涌现出复杂的思维模式（反思）。这个现象提示我们，强化学习真的具有很强的潜力，能为模型解锁下一个等级的智能，为实现 Agent 铺平了道路。
实用的 CoT 模型——R1 的实现

deepseek-r1-zero 的训练过程及最终的能力让人印象深刻。当然，放出来给大家用的模型还是要做一些工程上的优化的，不要那么激进。所以，第一步，deepseek-r1 模型还是先用 SFT 来启动，让模型先跟着样本学习一下思维链长啥样。然后，第二步，再进行和 deepseek-r1-zero 一样的强化学习。
强化学习完成后（这只训练了那些明确能判定结果正确与否的问题与解答），进入第三步。此时扩充一些其他方面的问题，并且让（经过微调的） Deepseek-v3 来生成合适的数据及奖励（这里我没太看懂）。此外，对于一些简单的、记忆类的问题，用了和 deepseek-v3 同样的后训练方法及数据。
最后第四步，在所有场景中进行第二轮强化学习。对于那些能明确判定结果正确与否的问题，用和 deepseek-r1-zero 一样的方法；其他种类的问题则用 RLHF，用类似于 deepseek-v3 后训练的流程及数据集。
站在巨人肩膀上的小模型

此前已经有很多人声称自己用小模型实现了o1/o1-preview/o1-mini的性能，方法是通过对展现了良好思维过程的样本进行监督学习。也就是说，蒸馏o1，或者收集一堆人类写的CoT文本然后监督学习。
那么这里 Deepseek 团队也做了这件事情，发现这条路确实行得通，而且效果好得难以置信。
例如，Qwen 1.5b 这么小的模型，蒸馏了一下 Deepseek-r1，就能在数学题上超越 GPT-4o 和 Claude-3.5-sonnet 这种顶级基座模型了！对于 Llama 70b 这种大模型，蒸馏了一下，做题能力立刻就超越 o1-mini，直逼 o1 了。
然后，既然 deepseek-r1-zero 纯用强化学习就这么猛了，那小模型呢？于是尝试了一下对 Qwen-32b 基础模型，用 deepseek-r1-zero 的强化学习方法，看看效果如何。
结果，效果一般，和 Qwen 团队给出的 QwQ-32b 几乎一样。纯强化学习的表现，远远不如直接蒸馏 Deepseek-r1！
或许，对于大模型而言，学而不思则罔；对于小模型而言，思而不学则殆。
大模型不习惯于思考，就很难做对数学题。但是，大模型本身非常聪明，只要要求它做对题目，它自己就能涌现出复杂的思考模式，通过无数天才般的灵光一闪，踏出一条智识的道路。
小模型即使十分努力地尝试做对题目，但仍存在一定的瓶颈。然而，资质平平的小模型，却可以通过学习大模型的思维方式，站在巨人的肩膀上，快速学习到很强的思维本领和做题能力，从而成为合格甚至优秀的做题家。
总结与展望

deepseek 团队为我们展示了强化学习的强大威力，并且开源了 o1 级别的 deepseek-r1 模型为人们所用。MIT协议！支持商用！鼓励蒸馏！源神启动！
由于 deepseek-r1 主要是通过训练思维链以强化做题能力，所以仍有改进空间：
1、在通用任务上可能比不过 deepseek-v3，包括调用函数、多轮复杂的角色扮演、输出 json 文本等；
2、输出有时候会混合不同的语言，和用户期望不一致；
3、对提示词敏感。few-shot 的提示词可能会降低其能力，所以推荐使用 zero-shot 提示词。（这里指的是，我们最好不要提供示例，而只是描述我们想要的结果？如果我理解错了请在评论区里告诉我）
4、软件工程能力，和 deepseek-v3 相比没有很明显的进步。
<hr/>我考虑写一些没有明确写在论文里的观察，但现在太晚了，先占个坑。

发表于 2025-4-22 16:04:03

关于那些问我本地部署有啥用的现在可以自己上 Ollama 搜下 deepseek-r1 了, you tell me.
<hr/>性能方面咱不予以评价, 关键在于它开源了, 这不坐等大脑升级，，，所以如果你也耗费巨量精力 7 x 24 h 地搁那物色硬件配了台非常牛逼的 PC 结果发现除了看个动画片、打个游戏能拉满外基本就用不到那么高配置而感到无比空虚的话, 那也完全可以整点儿本地 AI 搞一搞.
呃呃你要就只有打游戏能拉满配置的话··· 那动画片也还请务必安排上:
東雲正樹：一位报告人看了四位数的垃圾动画, 这事他的播发器发生的变化: 一键极致动画体验, 爱来自 LAV Filters Megamix = PotPlayer + LAV Filters + madVR其实本地部署非常简单, 就那么一两步就整完了. 所以具体特不特色、好不好用你自己搞搞就明白了, 下面的教程反正也没说只能拿来搞这款模型, 要真觉得太走深向实明事理不太喜欢就再换呗.
先去官网装个 Ollama:
Ollama

就点那个 Download, 然后选择平台:

点击 Download for Windows 然后打开 OllamaSetup.exe 点 Install 就完了.
装完就搁开始菜单里搜 cmd 然后打开命令提示符:

输入 ollama 显示一串命令列表就说明装上了:

最后一步就是下载模型, 回到 ollama.com 点击左上角的 Models 并搜索 deepseek-r1:

我们可以看到最基本的有 15 亿个参数到 6710 亿个参数的七个模型:

选择你想要的模型后复制右边儿那段到 cmd 里就会自动开始下载了:

如上图所示, 下完就直接能开始聊天了.
如果你只想下载而不想下完自动运行的话可以把 run 改为 pull, 即输入 ollama pull deepseek-r1:70b.
你要已经下过 70b 模型了的话那 ollama run deepseek-r1:70b 这段命令就是模型的启动命令. 个人感觉 7b 模型的反应速度非常快, 也好像完全不占系统资源但确实挺蠢的, 而 70b 的模型一下就吃了我 40000 MB 的内存, 说句话也动不动就要耗掉 60% 的 9800X3D, 反应速度还非常慢, 但确实比 7b 要聪明得多. 另外 14b 只吃 5500 MB 的内存, 仅供参考.
GPU? 等哥们儿弄到 5090 再说吧，，
<hr/>关于 Ollama 的一些基本操作:

通过输入 ollama pull [NAME] 我们可以下载一个想要的模型模型.

下面的操作仅以 deepseek-r1 为例, 但其实你也可以玩儿别的模型.

其中的 [NAME] 指的是具体的模型名, 你可以在 ollama.com 上查询, 下好了的则可以在 list 里查看, 通过输入 ollama list 我们可以查看自己现在已有的模型:

通过输入 ollama show [NAME] 我们可以查看一个模型的基本信息:

通过输入 ollama rm [NAME] 我们可以删除一个指定的模型:

通过输入 ollama run [NAME] 我们可以运行一个指定的模型:

可以看到我开局说的话太莫名其妙让他陷入了沉思, 这个模型会在 <think> *** <\think> 里详细地写出他的心路历程··· 以前我们跟 ai 斗智斗勇还常常会卡进死循环, 但现在我们开了读心估计是可以随意拿捏这家伙了.

通过输入 /bye 我们可以退出当前模型:

<hr/>关于对话的保存与模型的个性化:

在一个具体的模型内通过输入 /set 可以查看所有的设定选项, 这里最重要的就是前两项, 即参数和思想钢印. 通过输入 /set parameter 我们可以看到所有的可调节参数:

其中最重要的就是倒数第五的 temperature, 即创意等级. 该参数取值在 [0,1] 区间, 其中 0 对应非常严肃的性格, 就像一个毫无幽默感的数学老师, 而 1 则对应某种专业陪聊的感觉. 设定方式就是输入 /set parameter temperature [值], 其中值就是 [0,1] 之间的任意一个浮点数.
接着通过输入 /set system &#34;[思想钢印]&#34; 我们可以为模型打上思想钢印, 其中的 [思想钢印] 就是你的具体洗脑目标, 可以是人格或回应方式等.
然后通过输入 /show 我们可以看到所有可查看的信息, 比如输入 /show parameters 或 /show system 就可以查看我们刚才提到过的那些改动.
最后我们可以通过输入 /save [NAME] 将刚才的设定保存为一个新的模型, 但需要注意这个保存命令并不仅仅只保存那些设定, 同时也会保存前面的一切聊天记录或者说记忆.
典型范例:

然后再打开 list, 就可以看到自定义参数的模型了:

如果你就只是想设定个人格的话那可以直接打开 VS code 创个这样的文件:

第一行选择基础模型, 然后就是参数和洗脑内容的设定, 按格式来就行.

就直接在其所处文件夹的路径栏输入 cmd:

按下回车后会弹出一个 cmd 窗口, 接着我们输入 ollama create [NAME] -f ./[文件名] 就可以直接用这个文件内的参数创建一个新的模型了:

创建完把刚才的文件删了也行, 然后的你也懂了:

你妈, 我要研究下怎么给他关了这思考过程.
这只キャル的一切都很假!
<hr/>噢, 就直接跟他说就完了:

<hr/>更进阶的操作? Ultimate Combo? UI?
大家要很感兴趣等我有空可能会再补点儿吧.
哎, 其实还是最怀念惨遭 lobotomy 之前的冰:
如何评价 new Bing 新增的限制措施？

如何评价 DeepSeek 的 R1 与 R1-Zero 模型？

本周热门