为什么DeepSeek 深度求索不推出V3-Lite?

我承认我是穷逼，671B真的跑不起
很多应用现在用V3也觉得太贵
为什么不蒸馏出一个V3-Lite，探究一下到底是用什么蒸馏方法好
100B总参数，6B激活参数
甚至更小，40B激活2B
成本只有1/5，API 百万字0.05刀
两块A100可以满血跑，8块H100可以做到高效推理低成本部署
性能追上gemini 2.0 flash lite悬，但吊锤4o-mini没问题，很多应用就可以解锁了
开源社区也好跑些微调，加速，各种研究…
让我们穷逼也feel一下AGI！

发表于 2025-4-22 16:30:58

失业四年大乞丐觉得很简单，人家不在乎俺们这种穷逼…

发表于 2025-4-22 16:43:39

之前出过V2 Lite，然后被Qwen碾压，基本上是路边一条的待遇。真要做高低搭配模型的话起码也得做成基于V2.5用R1方法训练的方式。

发表于 2025-4-22 16:56:20

这么小做成dense不好吗？但是dense又有qwen打头阵，做个小dense吃力不讨好。连R1都选择蒸给qwen了。

发表于 2025-4-22 17:07:30

moe架构规模压缩到dense的体量（100B以内），性能相比dense会毫无优势，反而要承担更高的显存开销，实用价值低
KIMI一个多月前开源了一个16B的moe模型，激活参数2B多一点，评测论证完胜竞品Llama3.2-3B、Qwen2.5-3B...等。于是围观群众拼命鼓掌，然后迅速散了
https://github.com/MoonshotAI/Moonlight

为什么DeepSeek 深度求索不推出V3-Lite?

本周热门