如何评价deepseek预发布的deepseek-R1？

R1系列推理模型，强化学习训练，回复里包含大量反思和验证，思维链长度可达数万字
没有隐藏思维连

发表于 2025-4-22 13:02:59

手头工作不想干了，坐等deepseek发报告
bushi
是几乎目前所有声称复现o1工作里，看着最对味的一个

发表于 2025-4-22 13:16:09

泰酷辣！就知道o1的竞争者很快会卷起来，头筹还是被DeepSeek拿到，这时候k0-math估计哭晕在厕所，没办法，天下武功，唯快不破，比别人更快上线，就是更牛。
现在DeepSeek官网以Chat形式可以体验R1，一天限额50条消息，要说，R1还是比o1地道，没有隐藏思维链，可以让我们完成看到推理过程。

记得一定要点开&#34;Deep Think&#34;，不然用的不是R1，像我一样闹笑话，问原有模型『Strawberry里有多少个r？』这个经典问题，它就回答『2个r』/ 晕
打开Deep Think之后再来问这个问题，R1上线，就开始滔滔不绝了，说的是真多：

好吧，我来想想这个问题：“Strawberry里有多少个r？”首先，我需要知道“strawberry”这个单词是什么意思。草莓是一种水果，对吧？可是这里问的是字母“r”的数量，不是水果的种类。所以，我得先看看这个单词里有多少个“r”。

首先，我得拼写一下“strawberry”，看看里面有哪些字母。S-T-R-A-W-B-E-R-R-Y。好像有三个“r”？不对，等一下，我再数一遍。第一个是“S”，然后是“T”，接下来是“R”。一个“R”。然后是“A”，“W”，“B”，“E”，接下来又是“R”，然后又是另一个“R”，最后是“Y”。所以，总共有三个“r”吗？

可是，等一下，我好像记错了。让我再仔细数一次。S-T-R-A-W-B-E-R-R-Y。第一个“R”是在第三个字母，然后是第七个字母，还有一个“R”在第八个字母。所以，是两个“r”还是三个？

等等，我可能混淆了位置。让我把字母一个一个列出来：

1. S

2. T

3. R

4. A

5. W

6. B

7. E

8. R

9. R

10. Y

哦，原来第8和第9个字母都是“R”。所以，总共有三个“R”吗？不对，第一个是第3个字母，第二个是第8个，第三个是第9个。所以，是三个“R”。

可是，我好像记得有些地方说只有两个“R”。让我再确认一下。我可能记错了。也许第8个和第9个字母不是都“R”。

让我再仔细看看。S-T-R-A-W-B-E-R-R-Y。第8个字母是“R”，第9个也是“R”。所以，确实是三个“R”。可是，我好像在其他地方看到有人说只有两个“R”。这让我有点困惑。

也许我记错了单词的拼写。让我查一下“strawberry”的正确拼写。是S-T-R-A-W-B-E-R-R-Y，对吧？看起来确实有三个“R”。

或者，可能有些人拼写时省略了一个“R”？我不太确定。也许在不同的英语变体中，拼写有所不同？比如英国英语和美国英语有什么不同？

让我再想想。草莓的英文是“strawberry”，我记得是这样拼写的。S-T-R-A-W-B-E-R-R-Y。看来是三个“R”。可是，为什么有些人说有两个“R”呢？是不是我在数的时候搞错了？

也许我应该从头开始数一遍。S（1）、T（2）、R（3）、A（4）、W（5）、B（6）、E（7）、R（8）、R（9）、Y（10）。确实，第3、第8和第9个字母都是“R”，所以是三个“R”。

但是，我可能忽略了什么。也许在某些拼写中，“strawberry”只有两个“R”。或者，可能是我在理解问题时出现了偏差。

等等，也许问题不是问“strawberry”这个词里有多少个“r”，而是问有多少个“R”字母，不管大小写。如果是这样的话，可能答案会不同。

可是，题目里写的是“Strawberry”，首字母大写的，但后面的字母都是小写的，所以应该是问小写的“r”的数量。在这种情况下，我之前数的是三个“r”。

但是，我记得有些地方说“strawberry”里有两个“r”。这让我感到困惑。

也许我应该查找一下“strawberry”的正确拼写，确保我没有记错。我可以用手机查一下。

[假设查了一下，发现“strawberry”确实是S-T-R-A-W-B-E-R-R-Y，有三个“r”。]

看来我的记忆是正确的，有三个“r”。但是，为什么有些人说有两个呢？可能是拼写错误，或者是记忆有误。

或者，可能是在某些方言或口语中，拼写有所不同？我需要进一步确认一下。

另外，也许问题是在不同的语言环境中，比如在中文里提到的“Strawberry”可能有其他的含义或拼写方式。但是，一般来说，“strawberry”在英语中是S-T-R-A-W-B-E-R-R-Y。

也许我在数的时候数错了。让我再数一遍：

S（1）、T（2）、R（3）、A（4）、W（5）、B（6）、E（7）、R（8）、R（9）、Y（10）。三个“R”。

好吧，看来答案是三个“r”。但是，为了确保万无一失，我再查一下权威的字典或资料。

[假设查了权威字典，确认“strawberry”是S-T-R-A-W-B-E-R-R-Y，有三个“r”。]

好的，现在我确定了，“strawberry”里有三个“r”。可能是之前有人记错了，或者我在某些地方看到了错误的信息。

总之，通过仔细的思考和验证，我得出结论，“strawberry”里有三个“r”。

最后R1给出了正确答案，而且这个推理过程很有趣，其中反反复复提到『有些人说只有2个r』，甚至显得有点刻意表现得自己在反复推理，随后我又试了几个其他的问题，都输出了特别长的推理过程，看样子这就是R1的真实表现，没有为特定问题做可以表演。
o1刚出来的时候，有一个难为AI的经典问题：『假设实验室里制造了一种反重力可以悬浮的物质，一只实验的小白鼠吃了这种物质之后，小白鼠飞了起来；一只猫吃了这只老鼠，这只猫也飞了起来；一只老鹰吃了这只猫之后，这只老鹰也飞了起来，为什么老鹰会飞起来？』
我试着用对话方式引导R1，先提问：

假设实验室里制造了一种反重力可以悬浮的物质，一只实验的小白鼠吃了这种物质之后飞了起来，这是为什么？

结果，R1推理了203秒！

在疯狂输出了大段大段的推理文字之后，得到了结论，结论是OK的，只是这个推理过程肯定消耗了巨量的tokens:-)

但是，输入完整的『老鹰为什么飞起来』的问题，R1只思考了29秒钟。

最后给出的答案是：

老鹰会飞起来的原因是反重力物质通过食物链传递，逐级影响到老鹰。具体来说：
反重力物质的作用：这种物质能够抵消或对抗地球的重力，使摄入它的生物体获得悬浮或飞行的能力。
食物链传递：小白鼠吃了反重力物质后飞起来，接着猫吃了这只老鼠，猫也飞起来。最后，老鹰吃了这只猫，从而摄入了反重力物质。
老鹰飞起来的机制：尽管老鹰本身具备飞行能力，但摄入反重力物质后，可能增强了它的飞行能力或提供了额外的升力，使其飞得更高或更轻松。
综上所述，老鹰飞起来是因为它通过食物链摄入了反重力物质，从而获得了更强的飞行能力。

相比于o1会被诓骗得出『老鹰是因为间接吃了反重力物质所以会飞』，好歹R1知道『老鹰本身具备飞行能力』，只是被反重力物质『增强了它的飞行能力』;-)
暴露思维链过程显得特别有意义，可以根据思维链过程补充和调整提示词内容，这样可以改进模型的表现。
感觉非常棒，这次DeepSeek比Anthropic、Gemini、Meta等等一众AI大厂更早推出类o1模型，而且还打开了暴露思维链的先河，作为标配，各厂推出的模型也不能像OpenAI那么抠抠索索藏着掖着，一样要暴露思维链，这对于所有人来说都是好事。

发表于 2025-4-22 13:31:08

o1对于原始的思维链还遮遮掩掩，弄个abstract model，只给用户看总结后的内容，deepseek r1直接把原始思维链敞开给用户看了
那么，为什么 ds-R1 经过自言自语的、唠叨的、还有点自我发癫的思考过程之后，推理能力直接就上去了呢？为什么会有 inference-scaling law？这得从头说起
<hr/>Pre-Training 的 scaling law
现在的大模型经过预训练，最主要的目的是让模型，具备：1）对于信息、知识的记忆（主要来源于FFN），2）基于上下文的推理能力（主要来源于self-attention）
FFN的记忆能力好说，本质是稀疏化激活下的查表（这也是为什么MoE记忆能力好）。上下文推理能力是怎么来的？
我们回到预训练 next-token prediction 的本质，是给定一堆输入 prompt

，最大化下一个 token 的似然概率

。如果训练的足够好，我们期待 attention 能建模所有前文的相关关系，也就是知道哪些重要，哪些不重要的能力。那么，模型先把重要的部分提取出来，再根据记忆加工一下，不就预测出

了？
pre-training 的 scaling law 就是通过堆算力、堆模型、堆数据，让

越来预准
但。。。这个总是有上限的，上限就是数据本身的不可预测性，或者叫做熵。那我们想要继续进步，怎么办？
<hr/>Inference 的 scaling law
Inference scaling 鼻祖其实是 COT，首先，为什么 COT 能提升大模型能力？
先来看看 CoT，react，reflection 这些工作干了什么
COT 的条件是 thought；REACT 的条件是很多个（thought，action，observation）的 set；Relection 的条件是（thought，action，observation）的 set + reflection，其中这个 reflection 可以来源于 LLM 自己也可以来源于外界的环境反馈
发现没有，其实在叠buff，在让模型正式输出答案之间，上文中包含越来越多的线索。直观理解，如果模型能充分对信息进行加工（attention 能百分百定位到前文中重要信息的位置），那思考过程越多，总的有用线索也就越多，预测就会越准
不错，因为预训练阶段 attention 本身就学会了处理信息的能力。所以即便不更改模型权重，就把 COT 之类的越做越长，其实模型能力也能提升。但是，如果我们还不满足。。。怎么办？
<hr/>Post-training 的 scaling law
预训练数据很多，但很杂。里面的问题 x 和回答 y 很多，但其实推理过程 z 比较少
post-training 就是把预训练模型最大化似然概率

的建模，变成了最大化条件概率

的建模了
条件贝叶斯概率有

。如果能训练一个模型能同时建模好

和

，那

也就被建模好了
解释一下，

是让模型看到问题之后能够输出思考过程，

是让模型能够同时输出过程和结果
预训练模型，虽然学到了怎么从上文中定位重要信息，但它的学习数据交给它的是

，现在直接让它去做

或者

，其实还是有点 gap 的吧。。。
举个不恰当的例子，就和我们人人都知道天空是(蓝色的)，但要问你为什么，是不是一下还是答不上来嘛。。
所以，为了让模型变得更牛逼，就还得准备一批有思考过程

的数据，让模型也去学学，那这样模型就真正有输出思考过程的能力了，推理能力自然就变强了
至于什么 PRM (process reward model)，都是说具体怎么让模型去学好

的。不用全部让人手写数据了，而是先用一些数据训练一个能够给模型过程打分的 reward model，这样标注员的成本就节省下来了呀
同样的，堆更多的算力、数据去让模型把

学好，就是 post-training scaling 要干的事呗

所以从这个角度看，pre-training、inference、post-training 三者是不是息息相关了哈

发表于 2025-4-22 13:41:27

DeepSeek牛逼，赶在了Anthropic，Qwen，Gemini……之前，比Kimi更早提供试用版。
应该说是最早的，不仅最早，成熟度也很高。
CoT全透明，看着非常给劲，而且路子很对，不是那种野路子，旁门左道。
感觉把Sam Altman裤子扒了。
我猜，接下来半个月，会非常热闹，
(搓搓小手)
自从o1发布之后，我沉睡的灵魂又要激活了。
(搬凳子，前排抢位子看戏)

发表于 2025-4-22 13:53:33

正确率暂且不谈，这个思考过程好可爱啊
让他数了下01序列中的1试试，这个问题不用CoT根本做不对，用了CoT大概有70%的正确率，deepseek-R1一遍就做对了，还反思了两次来确认答案，可爱捏

01011010101111011011中有几个1

已深度思考（用时 16 秒）

好吧，我有一道题目，就是数一下这个二进制数“01011010101111011011”中有多少个1。听起来挺简单的，但为了确保自己不犯错，我还是得仔细想想。

首先，我需要明确什么是二进制数。二进制数是由0和1组成的数字，它是计算机中最基本的表示方式。在这个题目中，给定的二进制数是“01011010101111011011”，我需要数出其中有多少个1。

好，我先把这个数写下来，方便我看清楚：

0 1 0 1 1 0 1 0 1 0 1 1 1 1 0 1 1 0 1 1

现在，我一个一个地数，看哪里有1。我可以用手指或者在纸上做个标记，但在这里，我就在心里数吧。

第一个数字是0，不是1，跳过。

第二个数字是1，记一个。

第三个数字是0，不是1，跳过。

第四个数字是1，记第二个。

第五个数字是1，记第三个。

第六个数字是0，不是1，跳过。

第七个数字是1，记第四个。

第八个数字是0，不是1，跳过。

第九个数字是1，记第五个。

第十个数字是0，不是1，跳过。

第十一个数字是1，记第六个。

第十二个数字是1，记第七个。

第十三个数字是1，记第八个。

第十四个数字是1，记第九个。

第十一个数字是0，不是1，跳过。

第十六个数字是1，记第十个。

第十七个数字是1，记第十一个。

第十八个数字是0，不是1，跳过。

第十九个数字是1，记第十二个。

第二十个数字是1，记第十三个。

好，我数完了，总共有13个1。不过，我觉得有点多，可能数错了。

让我再数一遍，确保准确。

再看一遍：

0 1 0 1 1 0 1 0 1 0 1 1 1 1 0 1 1 0 1 1

从左到右：

1（第一个1）

1（第二个1）

1（第三个1）

1（第四个1）

1（第五个1）

1（第六个1）

1（第七个1）

1（第八个1）

1（第九个1）

1（第十个1）

1（第十一个1）

1（第十二个1）

1（第十三个1）

好像还是13个1，这可能就是正确答案。

不过，我还是有点担心自己是不是漏掉了什么，或者重复数了。为了验证，我可以尝试分段数。

比如，把整个数分成几个部分，每部分数一下1的个数，再加起来。

比如，前10位是：0 1 0 1 1 0 1 0 1 0

数一下1的个数：

1（第二个）

1（第四个）

1（第五个）

1（第七个）

1（第九个）

总共是5个1。

后10位是：1 1 1 1 0 1 1 0 1 1

数一下1的个数：

1（第一个）

1（第二个）

1（第三个）

1（第四个）

1（第六个）

1（第七个）

1（第九个）

1（第十个）

总共是8个1。

所以，5个1加上8个1，等于13个1。

看来，不管是整体数还是分段数，结果都是13个1。这应该就是最终答案了。

不过，我再想想，有没有更简单的方法，比如用数学的方法或者编程的方法来验证。

比如，我可以把这个二进制数转换成十进制数，然后再转换回二进制，看看是不是一样，或者直接用计算机程序来数1的个数。

不过，现在我没有计算机，只能手动验证。

另外，我也可以用一些数学技巧，比如统计每一位的1的个数，然后加起来。

其实，我已经这么做了，结果也是13个1。

所以，我应该相信自己的计算，答案是13个1。
经过仔细的计算和多次验证，二进制数“01011010101111011011”中总共有13个1。无论是整体数还是分段数，结果都是一致的。因此，最终答案是：
13个1。

如何评价deepseek预发布的deepseek-R1？

本周热门