DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?

一天的总收入为 $562,027,成本利润率 545%
收藏者
0
被浏览
110

5 个回答

aixn LV

发表于 2025-4-22 17:33:33

小书包都背上了,准备去happy了,结果,deepseek,你还来是吧!!
API绝对要降价了,如果之前五天开源的,很多infra公司说用不到,或者质疑最后部署成本的话,那么今天这个太炸裂了。
直接告诉你,多少机器部署,最近一阵的数据是多少,开源有多少利益,简直大善人!
MoE这种,应该未来必选了!核心:

  • EP部署,协调分配好每个专家在不同GPU上的使用率
  • 硬盘缓存,节省大量的输入KVcache计算
如果你不知前五天DeepSeek开源了什么,请温习一下下面的链接内容,我几乎每个回答都有一些思考吧!
DeepSeek 开源周第一天开源的项目 FlashMLA,有哪些亮点值得关注?
DeepSeek 开源周第二天开源项目 DeepEP,有哪些亮点值得关注?
DeepSeek 开源周第三天推出 DeepGEMM,有哪些亮点值得关注?应用前景如何?
DeepSeek 开源周第四天开源 DualPipe 和 EPLB 等代码库,有哪些技术亮点?
DeepSeek 开源周 Day5 发布的 3FS 有什么技术亮点和带来什么变化?
今天DeepSeek主要给大家说了一下,他们服务器部署EP的配置,在prefill和decode阶段如何进行EP的。

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-1.jpg

并多机多卡的专家并行会有较大的通信开销,deepseek使用了双 batch 重叠来掩盖通信开销,提高整体吞吐。在第四天的开源的profile-data里面有相关介绍。同时告诉了我们一些优化方法,

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-2.jpg

还有在白天和夜间是如何部署分配机器的。

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-3.jpg

最夸张的成本计算,545%的利润,恐怖,虽然时理论值,但相较于有人说说每月赔4亿也太夸张了。
其中,节约成本还有很大一部分应该是56.3%的输入tokens时命中硬盘KVcache缓存的吧。

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-4.jpg

最后,感谢DeepSeek开源,源神*10086!!

asdsf LV

发表于 2025-4-22 17:41:56

现在我一想起openai还在亏钱就想笑
要知道openai聊天会员一个月最高200美元,api每100w输出token15美刀
之前还搭着星际之门的大旗找孙正义再投400亿美刀
华尔街那帮人没去撕烂奥特曼那张嘴算他们素质高
梁文峰真可以晋升21世纪瓦特而名留青史了

zhenshuai LV

发表于 2025-4-22 17:50:26

有两个误区:第一点deepseek已经在文章里说了,一般gpu租赁价格只算gpu费用,硬盘,内存cpu价格额外算,这些算上肯定是达不到标称的,第二点是deepseek和其他厂家提供服务的逻辑是不一样的,deepseek是我买了一堆卡,开个云服务给大家玩玩,网页端免费不提供稳定服务,如果突发流量,用户query会被丢弃或者等待,云服务厂商是要同时满足所有用户并发,要有很大的冗余,利润率又会被砍。这就是富哥和商家的区别。
但是,部署deepseek赚不赚钱能被yang you拿出来说也是很离谱的,我们用户管你们商家赚不赚钱。你要是不赚钱就给投资人说,难到你没投资人微信,只能搬到公众平台了?
还有,deepseek把推理方案公开后,infra商家复现是很轻松的,至少现在绝不可能月亏四亿了。

dccb2005 LV

发表于 2025-4-22 18:02:15

刚刚小氪支持的人飘过。官方这篇文章估计今年会被做在线推理和私有化部署的群转爆,因为大家可以看到他们踩的坑和让出的利润。
养活了一大帮生态上下游的公司,有一说一,人真蛮好的。
文章中官方晒出的账单可以看到什么?


DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-1.jpg

使用弹性云服务器能省钱

除了私有化数据需求,在线弹性使用显然更划算,按照官方给出的参考水平,大概每天能够节约接近 2 万美刀(19,680),大概比用满省 20%
好多人大半夜不睡,玩 DS

为什么,没有节约更多?那是因为大半夜不睡觉,还在和模型聊天玩的你们呐。只有在 4-6 点的时候,服务器数量才能够缩容到原本的 1/2 以下,除此之外,基本保持 150 台以上的服务器使用水平。
为什么半夜使用量不是零呢?因为还有很多“机器人(程序)”调用。
官方的显卡价格(或自有GPU成本贵)

文章里给出的参考价格卡时是 2$/h
> 226.75*8*2*24 = 87072
上周和朋友聊天,头部老牌大厂有大量 vGPU 资源,和 Credits 可以给出。
H100 的最低价格可做到接近 2$/h 卡时。H100 的性能大概是 H800 的多少,这个很多人在知乎聊过了,不展开了。
除此之外,祖国幅员辽阔,很多地区的闲置卡和冗余电力能源,也能够带来不错的推理卡价格,当然不一定是 H100,更多是可被挖掘潜力的国产卡
我个人倾向这里是官方刻意写高了卡费用价格,给生态上下游一口饭吃,留个活路,类似国产硬盘致态,官方价格订稍微高一丢丢,让三方生态的兄弟们都能赚钱发育。
只要你的定价比官方低一些,在不追求原厂效果的情况下,就会有客户愿意来试试或买单。
小概率是自己买的设备价格稍微贵了点,折算了一个半贵不贵的,能说的过去的价格。
当然,这也说明什么呢?如非刚需必要,暂时不要买设备,用租的(你买不光是要买计算设备,还有存储网络等等等等),让子弹再飞一会,价格会更美好。
<hr/>“DeepSeek 一天怒赚 56 万刀,盈利率 545%”

上面这个小标题,这周一定会有自媒体迫于大家都写标题党内容而用上。
但是实际呢?人家都说了是理论收入,简单叉乘出来的...

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-2.jpg

其实这个钱不好赚的,除非能够持续的吸引用户都来用一方的 API (R1),持续进化模型(要花钱),保持领先(要花很多钱)。
不然,大量的 API 系统调用里,和去年一样的 instruct / chat 模型 v3 应该才是大头,我们使用的各种“AI”加持的系统里,你的供应商的选择一定是:怎么快怎么来,怎么便宜怎么来。
真说利润和赚钱,DeepSeek 能不能公布下最近投资盈利,推测应该怎么都远超这个帐面数字。
或许公布这个,是为了“以正视听”,应对社区里的一些声音?
头部梯队的数据积累速度

官方其实还公开了一个数据,就是一天内的有效用户输入(花钱了呐),在 608B 左右。
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only大概什么概念呢,2023 年 Falcon 发布的开源数据集,足够基于这个数据集训练 1.3/7.5B 模型,不过 600B token。

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-3.jpg

当然,数据如果处理和去重一番,有效数据量应该会更少,但也是很大的数据采集量了(这是一天呐)。

最后,DeepSeek 加油,要不你上个打赏系统吧


DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-4.jpg

浏次最览 LV

发表于 2025-4-22 18:16:35

AI Infra 的兄弟们今天都快哭了,好好的过个周末天要塌了。
你说你惹他干嘛,本来等 DeepSeek 多多开源一些训练/推理的底层技术,然后默默地用到自己的生产里提高效率就好。结果非得大张旗鼓地对线,说部署 DeepSeek 模型的 MaaS 业务月亏 4 亿。现在好了,DeepSeek 官方直接披露内部的成本利润细节,这下所有做 Infra 的兄弟都要被老板上压力了——如果利润率达不到 DeepSeek 的水平,就说明自家的 Infra 团队菜。
DeepSeek 其实多次说过自家的 API 不赔本。比如去年罗福莉在知乎透露 V2 API 的利润率[1]:
大家不用担心模型断更,也不用担心API涨价(目前就是大规模服务的价格,不亏本,利润率超50%
梁文锋接受 36Kr 采访时说[2]:
我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。
而且大家都知道 DeepSeek 自身的 Infra 能力很强,在有限的资源下做出了极致的优化,所以如果算出 DeepSeek 亏得离谱,认为他们赔本抢市场赚吆喝,最好先看看是不是自己哪里算错了。
<hr/>本来这周 DeepSeek 开源周,连续放了 5 天 Infra 相关的库,现在多了个 Day6[3],那就来看一下 DeepSeek 披露的细节吧:
DeepSeek:DeepSeek-V3 / R1 推理系统概览部署方式上,DeepSeek 采用多机多卡的专家并行。
Prefill:路由专家 EP32、MLA 和共享专家 DP32,一个部署单元是 4 节点,32 个冗余路由专家,每张卡 9 个路由专家和 1 个共享专家
Decode:路由专家 EP144、MLA 和共享专家 DP144,一个部署单元是 18 节点,32 个冗余路由专家,每张卡 2 个路由专家和 1 个共享专家
DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-1.jpg

至于 GPU 卡,DeepSeek V3/R1 线上业务用的全部是 H800,可以支持和训练一致的精度。目前峰值占用 278 节点,每个节点都是 8 卡机(也就是不到 2500 张卡)。

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-2.jpg

通过专家并行与负载均衡提升吞吐量,降低单 token 处理成本;通过双 batch 流水线设计隐藏通信耗时,减少 GPU 空转,提高硬件效率;再加上输入 token 命中缓存,直接降低处理成本。
DeepSeek 同时披露了 24 小时线上真实业务数据(包括网页、App、API),全天平均占用 226.75 节点,这里的 GPU 卡时单价按照市场租赁价 $2 估算,成本是 $87072/天。(这里的成本估算其实已经偏高了,而且 DeepSeek 应该是自己的卡,而不是租赁)
24 小时业务的总 token:输入 608B,其中 56.3 命中 KVCache 硬盘缓存;输出 168B,平均速率为 20~22 tps。
我自己之前实测过 DeepSeek 的 API 速度,除了 TTFT 时间比较久,实际生成速率和官方说的基本一致[4]。
  1. 【DeepSeek 官方】
  2. 首 token 响应时间: 9.35 秒
  3. Reasoning 部分:457 字符,292 tokens, 用时:13.74 秒, 生成速度:21.25 tokens/s
  4. Content 部分:189 字符,141 tokens, 用时:6.24 秒, 生成速度:22.61 tokens/s
  5. 内容生成:646 字符,433 tokens, 总用时:20.16 秒, 生成速度:21.48 tokens/s
  6. 如计入首 token 用时, 总用时:29.51 秒, 生成速度:14.67 tokens/s
复制代码
若所有请求按最高定价的 R1 收费,日收入可达 $562,027,利润率 545%。

DeepSeek 公布模型推理成本利润细节,透露了哪些关键信息?-3.jpg

当然,这里的收入估计肯定是虚高非常多的。因为这是所有业务的综合数据,官方并没有披露 API 的收费业务占了多少,其次,这里的价格是按 R1 计算的,官方也没有说 V3/R1 在真实业务中的比例
但是,考虑到他们至少有将近 6 倍的利润,如果 V3:R1 用量是 2:1,那么只要 API 业务是免费用户业务的六分之一,DeepSeek 就能收支平衡。
所以收支平衡是不难实现的,甚至在之前刚发布 V3 时的优惠期,DeepSeek 大概也是不亏本的。
<hr/>顺便摘取一些认为 DeepSeek 亏本的论述吧。
亏损来源:1. 测试速度和实际场景的差距。2. 机器利用率峰值和波谷的巨大差距。3. 机器的不稳定性。
白天高负荷时全节点部署推理,夜间低负荷时释放节点用于训练/研究。全天峰值 278 节点,平均 226.75 节点,证明资源弹性伸缩有效,避免了资源长期空置。
2台8卡H800机器每天服务真实用户能否输出3亿个满血DeepSeek R1 token。
2 节点和多机部署不具备可比性。实际上 DeepSeek 用平均的 226 节点全天输出了 1680 亿 token,换算下来每 2 节点输出了 14.8 亿 token。
三百多张卡的专家并行容错也要求很高,一张卡崩了三百多张卡受影响。
路由专家采用冗余部署(如 prefill 阶段 32 个冗余路由专家),每卡仅需计算少量专家(如 decode 阶段每卡 2 路由专家+1 共享专家)。同时通过负载均衡最小化单 GPU 负载最大值。
当然,尤老师是在批评那些拿 H20 跑 DeepSeek 的第三方云因为其他第三方云未必能做到官方的优化和用户调用量。但至少 DeepSeek 官方目前给出的 H800 多机多卡环境下业务运行的证据是比较充分的,官方公布开源了这些方法之后,第三方也会进行优化的。
<hr/>DeepSeek 上周开源的项目:
项目名称GitHub 地址项目简介应用领域意义
FlashMLAhttps://github.com/deepseek-ai/FlashMLA针对英伟达Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计高性能AI任务提升推理性能,降低硬件成本
DeepEPhttps://github.com/deepseek-ai/DeepEP首个用于MoE模型训练和推理的开源EP通信库,支持高效全对全通信和低精度运算大模型训练和推理,特别是需要EP的集群训练提升MoE模型训练和推理效率,降低通信开销,促进大规模模型的发展
DeepGEMMhttps://github.com/deepseek-ai/DeepGEMM专为简洁高效的FP8通用矩阵乘法设计的库,支持普通和MoE分组的GEMM运算深度学习框架中的矩阵计算提升矩阵乘法性能,降低计算成本,推动FP8生态的普及
并行优化策略(DualPipe、EPLB等)https://github.com/deepseek-ai/DualPipe
https://github.com/deepseek-ai/eplb
https://github.com/deepseek-ai/profile-data
包括用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法DualPipe,以及针对V3/R1的专家并行负载均衡工具EPLB大规模模型训练和高性能计算提升训练效率,优化资源利用率,减少管道气泡和GPU闲置现象
3FS文件系统https://github.com/deepseek-ai/3FS一个充分利用现代SSD和RDMA网络的并行文件系统,能实现高速数据访问AI模型训练和推理中的数据存储与管理提升数据读写性能,打破数据瓶颈,加速AI训练过程
Smallpondhttps://github.com/deepseek-ai/smallpond基于 DuckDB 和 3FS 构建的轻量级数据处理框架,专为高性能和大规模数据处理设计数据处理工具提供高效、简便的 PB 级数据处理工具,降低使用和维护的复杂性
参考:
伯克利尤洋计算后认为卖DeepSeek API (MaaS)月亏损4亿,计算是否正确?离低成本有多远?后续:
DeepSeek 和尤洋对模型服务成本的测算方式差别在哪里?对 AI 产业有什么参考意义?如何看待尤洋今日(20250301)对deepseek公布成本文章的回应? 以及后续开团硅基流动?从里面摘几句话:

  • 接入 DeepSeek 是作死,不接 DeepSeek 是等死
  • 我觉得怎么怪不到 DeepSeek 头上,他们开源了模型,开源了推理工具,说难听一点,大家这波都是跟着 DeepSeek 喝汤的,不管是国产芯、国产云,甚至包括我在内恰流量的自媒体,给 DeepSeek 磕一个都不过分。
  • MaaS 本质上仍然是一种基于云计算的服务模式,所以云存在的问题它都存在。
  • 这一波 DeepSeek 对国内的上游、下游都是极好的机会。某种意义上讲,DeepSeek 以一己之力做大了整个国内 AI 行业的蛋糕(指破圈和渗透),并且更关键的是,DeepSeek 把这块蛋糕无私地分给上下游的弟兄们吃
  • 这个时候,我们就算不讲什么家国民族,只谈赚钱,也应该明白,DeepSeek 给芯片、服务器、云厂商、AI 应用开发带来了多么好的契机和机会
  • 我觉得国产 AI 的上下游,应该抱团取暖,应该一起搞优化,一起做应用,而不是对线和输出情绪。

您需要登录后才可以回帖 登录 | 立即注册