为什么DeepSeek 深度求索不推出V3-Lite?

我承认我是穷逼,671B真的跑不起
很多应用现在用V3也觉得太贵
为什么不蒸馏出一个V3-Lite,探究一下到底是用什么蒸馏方法好
100B总参数,6B激活参数
甚至更小,40B激活2B
成本只有1/5,API 百万字0.05刀
两块A100可以满血跑,8块H100可以做到高效推理低成本部署
性能追上gemini 2.0 flash lite悬,但吊锤4o-mini没问题,很多应用就可以解锁了
开源社区也好跑些微调,加速,各种研究…
让我们穷逼也feel一下AGI!
收藏者
0
被浏览
67

4 个回答

稍息立正 LV

发表于 2025-4-22 16:30:58

失业四年大乞丐觉得很简单,人家不在乎俺们这种穷逼…

madein163 LV

发表于 2025-4-22 16:43:39

之前出过V2 Lite,然后被Qwen碾压,基本上是路边一条的待遇。真要做高低搭配模型的话起码也得做成基于V2.5用R1方法训练的方式。

陌陌 LV

发表于 2025-4-22 16:56:20

这么小做成dense不好吗?但是dense又有qwen打头阵,做个小dense吃力不讨好。连R1都选择蒸给qwen了。

zsqffff LV

发表于 2025-4-22 17:07:30

moe架构规模压缩到dense的体量(100B以内),性能相比dense会毫无优势,反而要承担更高的显存开销,实用价值低
KIMI一个多月前开源了一个16B的moe模型,激活参数2B多一点,评测论证完胜竞品Llama3.2-3B、Qwen2.5-3B...等。于是围观群众拼命鼓掌,然后迅速散了
https://github.com/MoonshotAI/Moonlight

您需要登录后才可以回帖 登录 | 立即注册