bhtl LV
发表于 2025-4-22 12:51:05
首先肯定是带有推理版本/混合推理:
Qwen 2.5 Max 的幻觉控制还是挺好的,但是到 QwQ 这类推理模型就有点和 R1 一样的幻觉味道了;如果推理版本拥有一样的幻觉率,会很好。
然后,我个人接触下来发现的不能称之为规律的规律是:在我个人的场景下:
(文本文案编写、知识问答、日常聊天、规划设计等非 code 场景,并不是我个人没有 code 场景,而是 code 场景下我只认准 Claude 3.7 Thinking,当然最近多了一个 Gemini 2.5 Pro)
国内的推理模型或多或少都有点 R1 的 "幻觉味道" 在,而且推理模型和非推理模型的幻觉率差距还蛮大的,典型如 V3 和 R1, 还有:
混元的 T1 (个人不太关心它在数学、纯 code 非任务的 benchmark 的刷分表现,只是简单对话了几次,容易飙一些量子力学、爱列数据举证编造,总之味道你懂的,怀疑是吃了不少 R1 的输出数据), QwQ32b。
回到国外模型,Gemini 2.0 Flash Thinking 就没有给我这样的感觉,反而是稳扎稳打的在 Gemini 2.0 Flash 基础上在上述任务场景表现更好,特别是文本风格模仿、文本分析类,我基本没有看到有量子力学那种幻觉;以及更强的 Gemini 2.5 Pro、Claude 3.7 Thinking、O3 Mini,它们都我的感觉都是能力增强而没有“涌现”出“非数学和代码场景之外的崩坏如量子力学民科、列数字瞎编”,就是我暂时没有看到什么模型表现上的“负收益”。
这是让我个人感觉很奇特的,是后训练方法不一样还是底层模型架构就不一样,还是训练数据的问题?希望有大佬解惑。
唯一我感觉到的负收益 (叠个甲,我每天至少使用 100 万 token 的 Claude 用于代码问答),Claude 3.7 Thinking 相比 Claude 3.5 有一个比较明显的 “model hacking”,有时候遇到一些困难的实际代码问题如果一两次不能解决,会尝试“换一种思路”或者它干脆就把那个功能模拟出来,变成只要“跑通不报错”就行,这也和 Claude 3.7 的 model card 技术报告有一定吻合,并且 reddit 也有老哥提到,当然这只是我的感觉。
最后希望国内的推理模型越做越好、做大做强,有很多 agent 场景(或者实际一点难听一点叫 workflow),在国内如果需要合规落地的话,无法使用 Claude 3.7 Thinking / Gemini 2.5 Pro / O1 的话,基本上国内是没有很好的替代品的(几个考量:模型知识推理能力、工具调用能力、多模态理解能力、幻觉控制能力),任重而道远啊。 |
|