DeepSeek 公布模型推理成本利润细节，透露了哪些关键信息？

一天的总收入为 $562,027，成本利润率 545%

发表于 2025-4-22 17:33:33

小书包都背上了，准备去happy了，结果，deepseek，你还来是吧！！
API绝对要降价了，如果之前五天开源的，很多infra公司说用不到，或者质疑最后部署成本的话，那么今天这个太炸裂了。
直接告诉你，多少机器部署，最近一阵的数据是多少，开源有多少利益，简直大善人！
MoE这种，应该未来必选了！核心：

EP部署，协调分配好每个专家在不同GPU上的使用率
硬盘缓存，节省大量的输入KVcache计算

如果你不知前五天DeepSeek开源了什么，请温习一下下面的链接内容，我几乎每个回答都有一些思考吧！
DeepSeek 开源周第一天开源的项目 FlashMLA，有哪些亮点值得关注？
DeepSeek 开源周第二天开源项目 DeepEP，有哪些亮点值得关注？
DeepSeek 开源周第三天推出 DeepGEMM，有哪些亮点值得关注？应用前景如何？
DeepSeek 开源周第四天开源 DualPipe 和 EPLB 等代码库，有哪些技术亮点？
DeepSeek 开源周 Day5 发布的 3FS 有什么技术亮点和带来什么变化?
今天DeepSeek主要给大家说了一下，他们服务器部署EP的配置，在prefill和decode阶段如何进行EP的。

并多机多卡的专家并行会有较大的通信开销，deepseek使用了双 batch 重叠来掩盖通信开销，提高整体吞吐。在第四天的开源的profile-data里面有相关介绍。同时告诉了我们一些优化方法，

还有在白天和夜间是如何部署分配机器的。

最夸张的成本计算，545%的利润，恐怖，虽然时理论值，但相较于有人说说每月赔4亿也太夸张了。
其中，节约成本还有很大一部分应该是56.3%的输入tokens时命中硬盘KVcache缓存的吧。

最后，感谢DeepSeek开源，源神*10086！！

发表于 2025-4-22 17:41:56

现在我一想起openai还在亏钱就想笑
要知道openai聊天会员一个月最高200美元，api每100w输出token15美刀
之前还搭着星际之门的大旗找孙正义再投400亿美刀
华尔街那帮人没去撕烂奥特曼那张嘴算他们素质高
梁文峰真可以晋升21世纪瓦特而名留青史了

发表于 2025-4-22 17:50:26

有两个误区：第一点deepseek已经在文章里说了，一般gpu租赁价格只算gpu费用，硬盘，内存cpu价格额外算，这些算上肯定是达不到标称的，第二点是deepseek和其他厂家提供服务的逻辑是不一样的，deepseek是我买了一堆卡，开个云服务给大家玩玩，网页端免费不提供稳定服务，如果突发流量，用户query会被丢弃或者等待，云服务厂商是要同时满足所有用户并发，要有很大的冗余，利润率又会被砍。这就是富哥和商家的区别。
但是，部署deepseek赚不赚钱能被yang you拿出来说也是很离谱的，我们用户管你们商家赚不赚钱。你要是不赚钱就给投资人说，难到你没投资人微信，只能搬到公众平台了？
还有，deepseek把推理方案公开后，infra商家复现是很轻松的，至少现在绝不可能月亏四亿了。

发表于 2025-4-22 18:02:15

刚刚小氪支持的人飘过。官方这篇文章估计今年会被做在线推理和私有化部署的群转爆，因为大家可以看到他们踩的坑和让出的利润。
养活了一大帮生态上下游的公司，有一说一，人真蛮好的。
文章中官方晒出的账单可以看到什么？

使用弹性云服务器能省钱

除了私有化数据需求，在线弹性使用显然更划算，按照官方给出的参考水平，大概每天能够节约接近 2 万美刀（19,680），大概比用满省 20%。
好多人大半夜不睡，玩 DS

为什么，没有节约更多？那是因为大半夜不睡觉，还在和模型聊天玩的你们呐。只有在 4-6 点的时候，服务器数量才能够缩容到原本的 1/2 以下，除此之外，基本保持 150 台以上的服务器使用水平。
为什么半夜使用量不是零呢？因为还有很多“机器人（程序）”调用。
官方的显卡价格（或自有GPU成本贵）

文章里给出的参考价格卡时是 2$/h

> 226.75*8*2*24 = 87072

上周和朋友聊天，头部老牌大厂有大量 vGPU 资源，和 Credits 可以给出。
H100 的最低价格可做到接近 2$/h 卡时。H100 的性能大概是 H800 的多少，这个很多人在知乎聊过了，不展开了。
除此之外，祖国幅员辽阔，很多地区的闲置卡和冗余电力能源，也能够带来不错的推理卡价格，当然不一定是 H100，更多是可被挖掘潜力的国产卡。
我个人倾向这里是官方刻意写高了卡费用价格，给生态上下游一口饭吃，留个活路，类似国产硬盘致态，官方价格订稍微高一丢丢，让三方生态的兄弟们都能赚钱发育。
只要你的定价比官方低一些，在不追求原厂效果的情况下，就会有客户愿意来试试或买单。
小概率是自己买的设备价格稍微贵了点，折算了一个半贵不贵的，能说的过去的价格。
当然，这也说明什么呢？如非刚需必要，暂时不要买设备，用租的（你买不光是要买计算设备，还有存储网络等等等等），让子弹再飞一会，价格会更美好。
<hr/>“DeepSeek 一天怒赚 56 万刀，盈利率 545%”

上面这个小标题，这周一定会有自媒体迫于大家都写标题党内容而用上。
但是实际呢？人家都说了是理论收入，简单叉乘出来的...

其实这个钱不好赚的，除非能够持续的吸引用户都来用一方的 API （R1），持续进化模型（要花钱），保持领先（要花很多钱）。
不然，大量的 API 系统调用里，和去年一样的 instruct / chat 模型 v3 应该才是大头，我们使用的各种“AI”加持的系统里，你的供应商的选择一定是：怎么快怎么来，怎么便宜怎么来。
真说利润和赚钱，DeepSeek 能不能公布下最近投资盈利，推测应该怎么都远超这个帐面数字。
或许公布这个，是为了“以正视听”，应对社区里的一些声音？
头部梯队的数据积累速度

官方其实还公开了一个数据，就是一天内的有效用户输入（花钱了呐），在 608B 左右。
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only大概什么概念呢，2023 年 Falcon 发布的开源数据集，足够基于这个数据集训练 1.3/7.5B 模型，不过 600B token。

当然，数据如果处理和去重一番，有效数据量应该会更少，但也是很大的数据采集量了（这是一天呐）。

最后，DeepSeek 加油，要不你上个打赏系统吧

发表于 2025-4-22 18:16:35

AI Infra 的兄弟们今天都快哭了，好好的过个周末天要塌了。
你说你惹他干嘛，本来等 DeepSeek 多多开源一些训练/推理的底层技术，然后默默地用到自己的生产里提高效率就好。结果非得大张旗鼓地对线，说部署 DeepSeek 模型的 MaaS 业务月亏 4 亿。现在好了，DeepSeek 官方直接披露内部的成本利润细节，这下所有做 Infra 的兄弟都要被老板上压力了——如果利润率达不到 DeepSeek 的水平，就说明自家的 Infra 团队菜。
DeepSeek 其实多次说过自家的 API 不赔本。比如去年罗福莉在知乎透露 V2 API 的利润率[1]：

大家不用担心模型断更，也不用担心API涨价（目前就是大规模服务的价格，不亏本，利润率超50%）

梁文锋接受 36Kr 采访时说[2]：

我们只是按照自己的步调来做事，然后核算成本定价。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。

而且大家都知道 DeepSeek 自身的 Infra 能力很强，在有限的资源下做出了极致的优化，所以如果算出 DeepSeek 亏得离谱，认为他们赔本抢市场赚吆喝，最好先看看是不是自己哪里算错了。
<hr/>本来这周 DeepSeek 开源周，连续放了 5 天 Infra 相关的库，现在多了个 Day6[3]，那就来看一下 DeepSeek 披露的细节吧：
DeepSeek：DeepSeek-V3 / R1 推理系统概览部署方式上，DeepSeek 采用多机多卡的专家并行。

Prefill：路由专家 EP32、MLA 和共享专家 DP32，一个部署单元是 4 节点，32 个冗余路由专家，每张卡 9 个路由专家和 1 个共享专家
Decode：路由专家 EP144、MLA 和共享专家 DP144，一个部署单元是 18 节点，32 个冗余路由专家，每张卡 2 个路由专家和 1 个共享专家

至于 GPU 卡，DeepSeek V3/R1 线上业务用的全部是 H800，可以支持和训练一致的精度。目前峰值占用 278 节点，每个节点都是 8 卡机（也就是不到 2500 张卡）。

通过专家并行与负载均衡，提升吞吐量，降低单 token 处理成本；通过双 batch 流水线设计隐藏通信耗时，减少 GPU 空转，提高硬件效率；再加上输入 token 命中缓存，直接降低处理成本。
DeepSeek 同时披露了 24 小时线上真实业务数据（包括网页、App、API），全天平均占用 226.75 节点，这里的 GPU 卡时单价按照市场租赁价 $2 估算，成本是 $87072/天。（这里的成本估算其实已经偏高了，而且 DeepSeek 应该是自己的卡，而不是租赁）
24 小时业务的总 token：输入 608B，其中 56.3 命中 KVCache 硬盘缓存；输出 168B，平均速率为 20~22 tps。
我自己之前实测过 DeepSeek 的 API 速度，除了 TTFT 时间比较久，实际生成速率和官方说的基本一致[4]。

【DeepSeek 官方】
首 token 响应时间： 9.35 秒
Reasoning 部分：457 字符，292 tokens, 用时：13.74 秒, 生成速度：21.25 tokens/s
Content 部分：189 字符，141 tokens, 用时：6.24 秒, 生成速度：22.61 tokens/s
内容生成：646 字符，433 tokens, 总用时：20.16 秒, 生成速度：21.48 tokens/s
如计入首 token 用时, 总用时：29.51 秒, 生成速度：14.67 tokens/s

复制代码

若所有请求按最高定价的 R1 收费，日收入可达 $562,027，利润率 545%。

当然，这里的收入估计肯定是虚高非常多的。因为这是所有业务的综合数据，官方并没有披露 API 的收费业务占了多少，其次，这里的价格是按 R1 计算的，官方也没有说 V3/R1 在真实业务中的比例。
但是，考虑到他们至少有将近 6 倍的利润，如果 V3:R1 用量是 2:1，那么只要 API 业务是免费用户业务的六分之一，DeepSeek 就能收支平衡。
所以收支平衡是不难实现的，甚至在之前刚发布 V3 时的优惠期，DeepSeek 大概也是不亏本的。
<hr/>顺便摘取一些认为 DeepSeek 亏本的论述吧。

亏损来源：1. 测试速度和实际场景的差距。2. 机器利用率峰值和波谷的巨大差距。3. 机器的不稳定性。

白天高负荷时全节点部署推理，夜间低负荷时释放节点用于训练/研究。全天峰值 278 节点，平均 226.75 节点，证明资源弹性伸缩有效，避免了资源长期空置。

2台8卡H800机器每天服务真实用户能否输出3亿个满血DeepSeek R1 token。

2 节点和多机部署不具备可比性。实际上 DeepSeek 用平均的 226 节点全天输出了 1680 亿 token，换算下来每 2 节点输出了 14.8 亿 token。

三百多张卡的专家并行容错也要求很高，一张卡崩了三百多张卡受影响。

路由专家采用冗余部署（如 prefill 阶段 32 个冗余路由专家），每卡仅需计算少量专家（如 decode 阶段每卡 2 路由专家+1 共享专家）。同时通过负载均衡最小化单 GPU 负载最大值。
当然，尤老师是在批评那些拿 H20 跑 DeepSeek 的第三方云，因为其他第三方云未必能做到官方的优化和用户调用量。但至少 DeepSeek 官方目前给出的 H800 多机多卡环境下业务运行的证据是比较充分的，官方公布开源了这些方法之后，第三方也会进行优化的。
<hr/>DeepSeek 上周开源的项目：

项目名称	GitHub 地址	项目简介	应用领域	意义
FlashMLA	https://github.com/deepseek-ai/FlashMLA	针对英伟达Hopper GPU优化的高效MLA解码内核，专为处理可变长度序列设计	高性能AI任务	提升推理性能，降低硬件成本
DeepEP	https://github.com/deepseek-ai/DeepEP	首个用于MoE模型训练和推理的开源EP通信库，支持高效全对全通信和低精度运算	大模型训练和推理，特别是需要EP的集群训练	提升MoE模型训练和推理效率，降低通信开销，促进大规模模型的发展
DeepGEMM	https://github.com/deepseek-ai/DeepGEMM	专为简洁高效的FP8通用矩阵乘法设计的库，支持普通和MoE分组的GEMM运算	深度学习框架中的矩阵计算	提升矩阵乘法性能，降低计算成本，推动FP8生态的普及
并行优化策略（DualPipe、EPLB等）	https://github.com/deepseek-ai/DualPipe https://github.com/deepseek-ai/eplb https://github.com/deepseek-ai/profile-data	包括用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法DualPipe，以及针对V3/R1的专家并行负载均衡工具EPLB	大规模模型训练和高性能计算	提升训练效率，优化资源利用率，减少管道气泡和GPU闲置现象
3FS文件系统	https://github.com/deepseek-ai/3FS	一个充分利用现代SSD和RDMA网络的并行文件系统，能实现高速数据访问	AI模型训练和推理中的数据存储与管理	提升数据读写性能，打破数据瓶颈，加速AI训练过程
Smallpond	https://github.com/deepseek-ai/smallpond	基于 DuckDB 和 3FS 构建的轻量级数据处理框架，专为高性能和大规模数据处理设计	数据处理工具	提供高效、简便的 PB 级数据处理工具，降低使用和维护的复杂性

参考：
伯克利尤洋计算后认为卖DeepSeek API (MaaS)月亏损4亿，计算是否正确？离低成本有多远？后续：
DeepSeek 和尤洋对模型服务成本的测算方式差别在哪里？对 AI 产业有什么参考意义？如何看待尤洋今日（20250301）对deepseek公布成本文章的回应? 以及后续开团硅基流动？从里面摘几句话：

接入 DeepSeek 是作死，不接 DeepSeek 是等死。
我觉得怎么怪不到 DeepSeek 头上，他们开源了模型，开源了推理工具，说难听一点，大家这波都是跟着 DeepSeek 喝汤的，不管是国产芯、国产云，甚至包括我在内恰流量的自媒体，给 DeepSeek 磕一个都不过分。
MaaS 本质上仍然是一种基于云计算的服务模式，所以云存在的问题它都存在。
这一波 DeepSeek 对国内的上游、下游都是极好的机会。某种意义上讲，DeepSeek 以一己之力做大了整个国内 AI 行业的蛋糕（指破圈和渗透），并且更关键的是，DeepSeek 把这块蛋糕无私地分给上下游的弟兄们吃。
这个时候，我们就算不讲什么家国民族，只谈赚钱，也应该明白，DeepSeek 给芯片、服务器、云厂商、AI 应用开发带来了多么好的契机和机会。
我觉得国产 AI 的上下游，应该抱团取暖，应该一起搞优化，一起做应用，而不是对线和输出情绪。

DeepSeek 公布模型推理成本利润细节，透露了哪些关键信息？

本周热门