各位大佬，对Qwen 3 Max / DeepSeek V4 两个「次世代」模型有啥期待？

我的低线期待：肯定要达到★★Gemini 2.5 Pro水平。
但Gemini 2.5 Pro，不出意外的，又会低于GPT-5o / Claude 4
所以，我的高线期待：Qwen 和 DeepSeek 直接达到GPT-5o和Claude 4水平。
——不过，以目前Gemini 2.5 Pro这种平流层级的vibe，DQ要超Gemini都非常困难。

发表于 2025-4-22 12:18:15

1. 预训练

Gemini 2.5 Pro 用得越多，越感受到预训练的重要性。
所以，请一定要扎扎实实做好预训练，不要过分取巧。
新能力只会在预训练中涌现出来，而不是 RL。
RL 只是锦上添花，而不能无中生有。
设想一下，如果预训练数据只有文本，再 RL 也不会涌现出视觉能力。
2. 融合推理

失败的产品：Gemini 2.0 Pro，GPT 4.5
成功的产品：Claude 3.7，Gemini 2.5 Pro
基座模型 + sft = ❌
推理模型 - cot = ✅
只经过 sft 的基模可能不够看了，融合推理是未来的趋势，可以提前调转方向。
3. 多模态

Agent 时代，无论是虚拟世界的 computer use，还是现实世界的具身智能，支持的模态越多，应用场景就越广泛、生态越好。

发表于 2025-4-22 12:31:07

基本上可以明确Qwen3-Max应该会早于DeepSeek-V4的。因为DeepSeek应该还是会有半代DeepSeek-V3.5，甚至DeepSeek会等到把国产加速卡玩明白了之后再推进DeepSeek-V4也不是不可能（因为毕竟那边Anthropic和OpenAI都开始“叫家长”想遏制DeepSeek，断供卡可能迟早会发生）。盲猜DeepSeek-V4也得要年底或者是明年初了。Qwen3-Max倒是觉得晚了说也是今年9月吧。
第一点肯定还是幻觉，甚至可以说现在DeepSeek-R1等等国产推理模型和o1以及其他的海外推理模型肯定在技术上还是有很大不同的。别看OpenAI说“DeepSeek独立发现了我们的一些技术“，但是估计没发现的还不少吧。感觉这个问题甚至都有点“卡脖子”了，可能在DeepSeek-V3.5，以及R1-0120的下一版本的时候就要解决了，否则的话，还是会有不少人不愿意（大量）使用。（可能还是说你得要对中间的推理过程要有监督，纯ORM、RL可能就是DeepSeek-R1这类现在的样子）（顺便小声说希望Qwen3-Max别学到DeepSeek-V3-0324的那种坏毛病）
第二个猜一个会变成Claude-3.7-Sonnet那种可以选择推理、Thinking budget多少的模型，因为感觉DeepSeek-V3-0324不就是那种样子吗？（我觉得甚至其实再加上一点“Thinking Claude”的那种提示词，完全可以当做“小推理模型”来用，“小”指的是强化学习的“小”）甚至最一开始在批评说怎么退回QwQ-32B-Preview的那种感觉了，就是有点话稠的感觉。（但是后来感觉不是，甚至有的时候能看见像是GPT-4.5的所谓“参数内推理”的感觉。但是这种感觉有的时候会被怀疑是一种“脑补”，比如说针对GPT-4.5是对它昂贵的定价以及背后可能反映的巨量参数的脑补，对于DeepSeek-V3-0324来说就是在写长篇的搜索报告的时候，以及一些出来第一个token就很神奇的时候，就好像说这个模型是在“参数内推理”了，这种感觉肯定也是会越来越多的，也希望能在DeepSeek-V4和Qwen3-Max上能够更多体现出来）我感觉DeepSeek能在V2.5的时候玩一手DeepSeek-V2和DeepSeek-Coder-V2融合的，应该说不定也能在DeepSeek-V3.5或者晚了就是DeepSeek-V4的时候梅开二度，来一个DeepSeek-Reasoner和DeepSeek-Chat之间的融合，反正我看他们在产品服务上也是“懒人”，干脆合成一个模型，这样估计Infra什么的也更好管吧。
第三个再是期待原生视觉，因为感觉以DeepSeek的“性格”来说，应该不会把视觉放到最重要的功能上面。应该说解决幻觉问题是头等大事，还有就还是在能力上的突破（这里有刷榜的纸面成绩，也有一些非常实用的能力）。要是在新的模型上面上了Janus架构的话，那真的是更好，该给DeepSeek“磕一个”了。至于Qwen，我反正现在我都搞不清Qwen-VL-Max现在后面的模型到底是不是Qwen2.5-VL-72B呢，可能人家也没有什么兴趣去做到Qwen3-Max这种超大模型上去，但是还是希望他们做。毕竟做了，就是比没做要好。
至于架构上的创新，这个我真的不知道，DeepSeek-V4说不定能在MTP上面继续玩玩，或者NSA什么的，no ideas。对于像我这样的业余看LLM的，只有出来了之后，可以在脑子当中yy吧。比如说什么当时MTP的时候，就想到说这个东西能不能作为推理的时候，怎么怎么着使用啦……但是现在听说Qwen3 Transformers的PR都已经merged，估计也就是那样了，至少没有说像是DeepSeek那样惊人。
然后还有两点专门说给Qwen的，第一个自然是把Qwen-Max和Qwen-Plus以及最好的话，带上Qwen-Turbo，全开放权重吧。就是想can can need架构不行吗，为啥Qwen-Plus这么便宜，性能还不错？第二个就是Qwen-Max能不能把上下文拉长一点，比如说131072，32768不少人可能会嫌太短……（DeepSeek官方以及国内大部分的推理商都是最多64k，但是其实在国外，比如DeepInfra，还是能以一个还算不错的价格拿到128k或者更长的上下文长度的。顺便也说说腾讯混元，你说你做了mamba架构，怎么你还是32k上下文长度（注：这个上下文指的是TurboS-20250313/20250226的最大输入加上最大输出的总和），同样是Mamba的Jamba 256k，另一个非Transformer的MiniMax 1M，甚至看T1的时候都觉得有一点点幽默，怎么输入28k还比最大输出64k还要短呢？）

发表于 2025-4-22 12:40:03

谢邀 @Trisimo崔思莫

不要因为多模支持造成文字降智
代码方面修复以下问题：
- 懒不写全
- 修改范围过大推倒重来倾向过高
输出长度可控
- 当有明确指令时能一口气输出到 token 上限
- 能精确控制长度更好
- 需要在交互式使用和 agent 应用两个场景验证。
思维链部分
- 提高可读性，风格可以更多样（不要都是 R1 吃了吐意识流）
- 减少中文 thinking 降智
- 有一定的世界模型能力，即脑中虚拟执行能力
支持一些惊喜功能
- 如 backspace 支持。避免 C++ 写错一句或者开头没有 include 但不能回头修复问题
- 加强自我解释和自我教程能力：模型应该熟悉自己特性，并是自己最好的教程
- 加强 graphviz / tikz 之类文字脑图支持（mermaid 还是太简陋了）
（专门说 Qwen）
- 修复数字数能力（中英文）。
- 增强对“表格式”输入的支持，包括 pdf/html 拷出来的格式有些乱的表格。
- latex 上下标不要乱（即使输入有混乱）。

发表于 2025-4-22 12:51:05

首先肯定是带有推理版本/混合推理：
Qwen 2.5 Max 的幻觉控制还是挺好的，但是到 QwQ 这类推理模型就有点和 R1 一样的幻觉味道了；如果推理版本拥有一样的幻觉率，会很好。
然后，我个人接触下来发现的不能称之为规律的规律是：在我个人的场景下:
（文本文案编写、知识问答、日常聊天、规划设计等非 code 场景，并不是我个人没有 code 场景，而是 code 场景下我只认准 Claude 3.7 Thinking，当然最近多了一个 Gemini 2.5 Pro）
国内的推理模型或多或少都有点 R1 的 &#34;幻觉味道&#34; 在，而且推理模型和非推理模型的幻觉率差距还蛮大的，典型如 V3 和 R1, 还有:
混元的 T1 (个人不太关心它在数学、纯 code 非任务的 benchmark 的刷分表现，只是简单对话了几次，容易飙一些量子力学、爱列数据举证编造，总之味道你懂的，怀疑是吃了不少 R1 的输出数据), QwQ32b。
回到国外模型，Gemini 2.0 Flash Thinking 就没有给我这样的感觉，反而是稳扎稳打的在 Gemini 2.0 Flash 基础上在上述任务场景表现更好，特别是文本风格模仿、文本分析类，我基本没有看到有量子力学那种幻觉；以及更强的 Gemini 2.5 Pro、Claude 3.7 Thinking、O3 Mini，它们都我的感觉都是能力增强而没有“涌现”出“非数学和代码场景之外的崩坏如量子力学民科、列数字瞎编”，就是我暂时没有看到什么模型表现上的“负收益”。
这是让我个人感觉很奇特的，是后训练方法不一样还是底层模型架构就不一样，还是训练数据的问题？希望有大佬解惑。
唯一我感觉到的负收益 (叠个甲，我每天至少使用 100 万 token 的 Claude 用于代码问答)，Claude 3.7 Thinking 相比 Claude 3.5 有一个比较明显的 “model hacking”，有时候遇到一些困难的实际代码问题如果一两次不能解决，会尝试“换一种思路”或者它干脆就把那个功能模拟出来，变成只要“跑通不报错”就行，这也和 Claude 3.7 的 model card 技术报告有一定吻合，并且 reddit 也有老哥提到，当然这只是我的感觉。
最后希望国内的推理模型越做越好、做大做强，有很多 agent 场景（或者实际一点难听一点叫 workflow），在国内如果需要合规落地的话，无法使用 Claude 3.7 Thinking / Gemini 2.5 Pro / O1 的话，基本上国内是没有很好的替代品的（几个考量：模型知识推理能力、工具调用能力、多模态理解能力、幻觉控制能力），任重而道远啊。

发表于 2025-4-22 13:02:02

似乎V4不太会先出，搞不好是R2先出，如果是那样的话就期待DeepSeek在RL上又摸索出了什么东西，或者能做出什么改进。
然后关于期待的话：
更扎实的预训练和更强的基础模型能力，看看多模态能不能带来一些新东西（比如不同模态在embedding上的创新？）；
推想混合，或者可以根据提示词实现模式切换；
Coding和Tool-use追齐Claude（国内Agent创业肯定还是需要大模型备案的，这算是我的私心），让国内Agent生态整体收益；
是否会有一家复现或者挖掘出GPT-4o在图像生成上这么强的原因；
对Qwen希望能出更好用的小模型（32B或者更小），边缘/端侧还是有场景的。

最后，要不直接把六小虎拉爆吧，我要看到血流成河（bushi
最最后，不要忘记字节。论人才密度和资源，字节的后劲也很强。

各位大佬，对Qwen 3 Max / DeepSeek V4 两个「次世代」模型有啥期待 ？

本周热门

各位大佬，对Qwen 3 Max / DeepSeek V4 两个「次世代」模型有啥期待？