各位大佬,对Qwen 3 Max / DeepSeek V4 两个「次世代」模型有啥期待 ?

我的低线期待:肯定要达到★★Gemini 2.5 Pro水平。
但Gemini  2.5 Pro,不出意外的,又会低于GPT-5o / Claude  4
所以,我的高线期待:Qwen 和 DeepSeek 直接达到GPT-5o和Claude 4水平。
——不过,以目前Gemini 2.5 Pro这种平流层级的vibe,DQ要超Gemini都非常困难。
收藏者
0
被浏览
69

5 个回答

张小白 LV

发表于 2025-4-22 12:18:15

1. 预训练

Gemini 2.5 Pro 用得越多,越感受到预训练的重要性。
所以,请一定要扎扎实实做好预训练,不要过分取巧。
新能力只会在预训练中涌现出来,而不是 RL。
RL 只是锦上添花,而不能无中生有。
设想一下,如果预训练数据只有文本,再 RL 也不会涌现出视觉能力。
2. 融合推理

失败的产品:Gemini 2.0 Pro,GPT 4.5
成功的产品:Claude 3.7,Gemini 2.5 Pro
基座模型 + sft  = ❌
推理模型 - cot  = ✅
只经过 sft 的基模可能不够看了,融合推理是未来的趋势,可以提前调转方向。
3. 多模态

Agent 时代,无论是虚拟世界的 computer use,还是现实世界的具身智能,支持的模态越多,应用场景就越广泛、生态越好。

wy1130 LV

发表于 2025-4-22 12:31:07

基本上可以明确Qwen3-Max应该会早于DeepSeek-V4的。因为DeepSeek应该还是会有半代DeepSeek-V3.5,甚至DeepSeek会等到把国产加速卡玩明白了之后再推进DeepSeek-V4也不是不可能(因为毕竟那边Anthropic和OpenAI都开始“叫家长”想遏制DeepSeek,断供卡可能迟早会发生)。盲猜DeepSeek-V4也得要年底或者是明年初了。Qwen3-Max倒是觉得晚了说也是今年9月吧。
第一点肯定还是幻觉,甚至可以说现在DeepSeek-R1等等国产推理模型和o1以及其他的海外推理模型肯定在技术上还是有很大不同的。别看OpenAI说“DeepSeek独立发现了我们的一些技术“,但是估计没发现的还不少吧。感觉这个问题甚至都有点“卡脖子”了,可能在DeepSeek-V3.5,以及R1-0120的下一版本的时候就要解决了,否则的话,还是会有不少人不愿意(大量)使用。(可能还是说你得要对中间的推理过程要有监督,纯ORM、RL可能就是DeepSeek-R1这类现在的样子)(顺便小声说希望Qwen3-Max别学到DeepSeek-V3-0324的那种坏毛病)
第二个猜一个会变成Claude-3.7-Sonnet那种可以选择推理、Thinking budget多少的模型,因为感觉DeepSeek-V3-0324不就是那种样子吗?(我觉得甚至其实再加上一点“Thinking Claude”的那种提示词,完全可以当做“小推理模型”来用,“小”指的是强化学习的“小”)甚至最一开始在批评说怎么退回QwQ-32B-Preview的那种感觉了,就是有点话稠的感觉。(但是后来感觉不是,甚至有的时候能看见像是GPT-4.5的所谓“参数内推理”的感觉。但是这种感觉有的时候会被怀疑是一种“脑补”,比如说针对GPT-4.5是对它昂贵的定价以及背后可能反映的巨量参数的脑补,对于DeepSeek-V3-0324来说就是在写长篇的搜索报告的时候,以及一些出来第一个token就很神奇的时候,就好像说这个模型是在“参数内推理”了,这种感觉肯定也是会越来越多的,也希望能在DeepSeek-V4和Qwen3-Max上能够更多体现出来)我感觉DeepSeek能在V2.5的时候玩一手DeepSeek-V2和DeepSeek-Coder-V2融合的,应该说不定也能在DeepSeek-V3.5或者晚了就是DeepSeek-V4的时候梅开二度,来一个DeepSeek-Reasoner和DeepSeek-Chat之间的融合,反正我看他们在产品服务上也是“懒人”,干脆合成一个模型,这样估计Infra什么的也更好管吧 。
第三个再是期待原生视觉,因为感觉以DeepSeek的“性格”来说,应该不会把视觉放到最重要的功能上面。应该说解决幻觉问题是头等大事,还有就还是在能力上的突破(这里有刷榜的纸面成绩,也有一些非常实用的能力)。要是在新的模型上面上了Janus架构的话,那真的是更好,该给DeepSeek“磕一个”了。至于Qwen,我反正现在我都搞不清Qwen-VL-Max现在后面的模型到底是不是Qwen2.5-VL-72B呢,可能人家也没有什么兴趣去做到Qwen3-Max这种超大模型上去,但是还是希望他们做。毕竟做了,就是比没做要好。
至于架构上的创新,这个我真的不知道,DeepSeek-V4说不定能在MTP上面继续玩玩,或者NSA什么的,no ideas。对于像我这样的业余看LLM的,只有出来了之后,可以在脑子当中yy吧。比如说什么当时MTP的时候,就想到说这个东西能不能作为推理的时候,怎么怎么着使用啦……但是现在听说Qwen3 Transformers的PR都已经merged,估计也就是那样了,至少没有说像是DeepSeek那样惊人。
然后还有两点专门说给Qwen的,第一个自然是把Qwen-Max和Qwen-Plus以及最好的话,带上Qwen-Turbo,全开放权重吧。就是想can can need架构不行吗,为啥Qwen-Plus这么便宜,性能还不错?第二个就是Qwen-Max能不能把上下文拉长一点,比如说131072,32768不少人可能会嫌太短……(DeepSeek官方以及国内大部分的推理商都是最多64k,但是其实在国外,比如DeepInfra,还是能以一个还算不错的价格拿到128k或者更长的上下文长度的。顺便也说说腾讯混元,你说你做了mamba架构,怎么你还是32k上下文长度(注:这个上下文指的是TurboS-20250313/20250226的最大输入加上最大输出的总和),同样是Mamba的Jamba 256k,另一个非Transformer的MiniMax 1M,甚至看T1的时候都觉得有一点点幽默,怎么输入28k还比最大输出64k还要短呢?)

bklxdy LV

发表于 2025-4-22 12:40:03

谢邀 @Trisimo崔思莫

  • 不要因为多模支持造成文字降智
  • 代码方面修复以下问题:

    • 懒不写全
    • 修改范围过大推倒重来倾向过高

  • 输出长度可控

    • 当有明确指令时能一口气输出到 token 上限
    • 能精确控制长度更好
    • 需要在交互式使用和 agent 应用两个场景验证。

  • 思维链部分

    • 提高可读性,风格可以更多样(不要都是 R1 吃了吐意识流)
    • 减少中文 thinking 降智
    • 有一定的世界模型能力,即脑中虚拟执行能力

  • 支持一些惊喜功能

    • 如 backspace 支持。避免 C++ 写错一句或者开头没有 include 但不能回头修复问题
    • 加强自我解释和自我教程能力:模型应该熟悉自己特性,并是自己最好的教程
    • 加强 graphviz / tikz 之类文字脑图支持(mermaid 还是太简陋了)

  • (专门说 Qwen)

    • 修复数字数能力(中英文)。
    • 增强对“表格式”输入的支持,包括 pdf/html 拷出来的格式有些乱的表格。
    • latex 上下标不要乱(即使输入有混乱)。

bhtl LV

发表于 2025-4-22 12:51:05

首先肯定是带有推理版本/混合推理:
Qwen 2.5 Max 的幻觉控制还是挺好的,但是到 QwQ 这类推理模型就有点和 R1 一样的幻觉味道了;如果推理版本拥有一样的幻觉率,会很好。
然后,我个人接触下来发现的不能称之为规律的规律是:在我个人的场景下:
(文本文案编写、知识问答、日常聊天、规划设计等非 code 场景,并不是我个人没有 code 场景,而是 code 场景下我只认准 Claude 3.7 Thinking,当然最近多了一个 Gemini 2.5 Pro)
国内的推理模型或多或少都有点 R1 的 "幻觉味道" 在,而且推理模型和非推理模型的幻觉率差距还蛮大的,典型如 V3 和 R1, 还有:
混元的 T1 (个人不太关心它在数学、纯 code 非任务的 benchmark 的刷分表现,只是简单对话了几次,容易飙一些量子力学、爱列数据举证编造,总之味道你懂的,怀疑是吃了不少 R1 的输出数据), QwQ32b。
回到国外模型,Gemini 2.0 Flash Thinking 就没有给我这样的感觉,反而是稳扎稳打的在 Gemini 2.0 Flash 基础上在上述任务场景表现更好,特别是文本风格模仿、文本分析类,我基本没有看到有量子力学那种幻觉;以及更强的 Gemini 2.5 Pro、Claude 3.7 Thinking、O3 Mini,它们都我的感觉都是能力增强而没有“涌现”出“非数学和代码场景之外的崩坏如量子力学民科、列数字瞎编”,就是我暂时没有看到什么模型表现上的“负收益”。
这是让我个人感觉很奇特的,是后训练方法不一样还是底层模型架构就不一样,还是训练数据的问题?希望有大佬解惑。
唯一我感觉到的负收益 (叠个甲,我每天至少使用 100 万 token 的 Claude 用于代码问答),Claude 3.7 Thinking 相比 Claude 3.5 有一个比较明显的 “model hacking”,有时候遇到一些困难的实际代码问题如果一两次不能解决,会尝试“换一种思路”或者它干脆就把那个功能模拟出来,变成只要“跑通不报错”就行,这也和 Claude 3.7 的 model card 技术报告有一定吻合,并且 reddit 也有老哥提到,当然这只是我的感觉。
最后希望国内的推理模型越做越好、做大做强,有很多 agent 场景(或者实际一点难听一点叫 workflow),在国内如果需要合规落地的话,无法使用 Claude 3.7 Thinking / Gemini 2.5 Pro / O1 的话,基本上国内是没有很好的替代品的(几个考量:模型知识推理能力、工具调用能力、多模态理解能力、幻觉控制能力),任重而道远啊。

陌陌 LV

发表于 2025-4-22 13:02:02

似乎V4不太会先出,搞不好是R2先出,如果是那样的话就期待DeepSeek在RL上又摸索出了什么东西,或者能做出什么改进。
然后关于期待的话:
更扎实的预训练和更强的基础模型能力,看看多模态能不能带来一些新东西(比如不同模态在embedding上的创新?);
推想混合,或者可以根据提示词实现模式切换;
Coding和Tool-use追齐Claude(国内Agent创业肯定还是需要大模型备案的,这算是我的私心),让国内Agent生态整体收益;
是否会有一家复现或者挖掘出GPT-4o在图像生成上这么强的原因;
对Qwen希望能出更好用的小模型(32B或者更小),边缘/端侧还是有场景的。

最后,要不直接把六小虎拉爆吧,我要看到血流成河(bushi
最最后,不要忘记字节。论人才密度和资源,字节的后劲也很强。

您需要登录后才可以回帖 登录 | 立即注册