有没有减少deepseek r1幻觉的好办法？

这段时间使用下来（包括学术、代码编写、日常娱乐等），发现deepseek r1可能是目前顶级大模型里幻觉最严重的。请问有没有减轻幻觉的办法？比如哪些提示词或者设置会有帮助？

发表于 2025-4-22 14:21:08

减少幻觉的关键在于提问方式、验证信息和引导 AI 的回答方式。AI 本质上是一个语言模型，它的目标是“生成流畅合理的回答”，但不一定是“保证每个回答都真实无误”。所以，用户需要主动采取一些策略，来提高回答的可靠性。
首先，调整提问方式可以有效减少幻觉。如果你问 AI 一个事实性问题，最好用封闭式问题，比如“2024 年诺贝尔物理学奖获得者是谁？”而不是“最近有什么有趣的物理学进展？”，后者可能会让 AI 直接编造一些听起来合理但实际上不存在的新闻。同时，可以要求 AI 说明信息来源，比如直接问“这个信息的来源是什么？”或者“你是怎么得出这个结论的？”这样可以迫使 AI 以更谨慎的方式回答，而不是随口编造。
其次，使用交叉验证。如果 AI 给出的答案涉及重要信息，最好的做法是换一种方式提问，看看 AI 是否能得出相同的答案，或者直接去搜索引擎、论文数据库等权威来源核实信息。有时候，AI 会在不同的回答中前后矛盾，这本身就是幻觉的一个信号。如果你问 AI “某个科学家提出了什么理论？”然后再问“这个理论是谁最先提出的？”如果两个回答不一致，那很可能至少有一个是错误的。
再者，利用 AI 本身的能力去自我校对。有些 AI 允许你要求它重新检查自己的回答，比如你可以直接说“请你再检查一下你的回答，看看有没有错误”或者“请提供这个信息的多个可信来源”。有时候 AI 在自我反思时，会发现自己之前的回答有问题，或者会更谨慎地调整措辞，减少错误信息。
此外，多角度提问也是一个好方法。比如，如果你在问 AI 某个历史事件的细节，可以同时让它提供时间、地点、相关人物、背景信息，然后看看这些信息之间是否一致。如果某个点看起来不太对，就可以深入追问它“你为什么这么说？”或者“你能再解释一下这个细节吗？”。AI 在面对具体追问时，往往会变得更加谨慎，而不是继续胡编乱造。
让 AI 在回答问题时可以让它先查找外部信息，而不是完全依赖自己的训练数据。比如现在很多 AI 已经可以结合数据库或实时搜索，遇到不确定的问题时，它可以先“看一下资料”，然后再回答，而不是直接靠概率模型猜测答案。
最后，注意 AI 的措辞。AI 在低置信度回答时，有时会用“可能是……”“据我所知……”这种模糊语言，而在高置信度回答时会用“确实是……”“可以确定……”这样的表达。如果 AI 在一个复杂或冷门的问题上说得特别自信，反而需要警惕它可能在胡说。

发表于 2025-4-22 14:34:33

在没有新的控制方法之前，这个问题我觉得无法根治，官网完整版大模型应该比小版本要好，小版本简直联想没边了。其实r1在实用意义上个人觉得还不如kimi，因为一个乱想的模型更难控制，导致在官方app上对r1的紧箍咒要大的多，很多问题譬如涉及金砖一带一路，kimi能回答，deepseek就回答不了，另外联想太丰富也好什么也好，大家都知道它防越狱能力很差只能硬过滤，也就是你挡不住它乱说，你只能把它乱说给屏蔽了。但是在写小说方面只要不发疯，都能和cla比了。但是它就没有不发疯的情况。
以下是我查阅资料后的初步判断。
第一种方式是类似perplexity.ai一样交替使用各个模型回答，偶尔在r1模型的回答能得到一丝意料之外的收获，poe不支持切换模型所以发疯是永恒的。
第二种就是假deepseek r1，譬如Llama 3.3 70B 精调基于 DeepSeek-R1 生成的样本训练这类。看上去是r1用起来会发现不是。说白了这个问题在r1本身无法有技术架构突破之前，只能寄托于各大模型杂交来控制温度。要么是后端几个模型的杂交，要么是前端在回答问题时的杂交。
引导词？可它压根不会在意引导词，你看它分析的时候说的都很对，等到回答就发疯。

发表于 2025-4-22 14:47:36

编程用R1的思维链输出到Claude，这是目前效率最高、效果最好的AI编程鸡尾酒。
数学、推理这些主观问题R1很少出现幻觉。
其实R1的幻觉主要来自于强化学习过程中的非主观题格式正确奖励。为了形成严密的逻辑，思维发散非常严重，经常编造论据。解决办法就是这类问题不要用R1，除非你对所涉及的领域有深入的认识可以辨别真伪。

发表于 2025-4-22 15:02:07

有，严格的圈定他的参考范围。
我举一个极端的例子吧，可以明显的看出来差别，别的时候可能没那么明显。
我在知乎的直答里的知识库里上传了一篇论文，是关于太空建筑的，我让 ds 来解读下这个文章，选择的参考范围是默认的选项，就是知乎的中文英文论文库和知乎精选。

结果整个人对于亚麻呆住了，他看似找到了 38 个文献，但从一开始标题都错了，后边的解读很长，但完全不挨着。

接下来我要求 ds 只能选我上传的文件进行参考，就正常起来了。用别的平台的 ds 不太好复现这么极端的案例，主要是不太方便自由的选择参考的文库，比如官方 ds 就是默认的库，元宝的 ds 就是腾讯的库。用知乎你能更明显的感觉到大模型的幻觉跟他所参考的库的直接的关联性。

发表于 2025-4-22 15:13:26

问 R1 一个问题，它的回答飘到天上去了，结果完全不可用

但是，你看它的 cot 还是挺正常的：

所以，解决方案很简单，就是你可以把 R1 的 cot 丢给 V3 来回答，可以看到，这输出就正常了。

这是一个叫 chatwise 的软件，只要你填入 Deepseek 的 API，在你调用其他模型时，在开头加入 @think，它就能自动把 R1 的 cot 加到其他模型中。
软件会强制 R1 的 max output token 为 1，所以相当于 R1 只输出了 cot，也不浪费钱。

有没有减少deepseek r1幻觉的好办法？

本周热门