怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？

近日，深度求索发布新模型Deepseek V3，其在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中，DeepSeek-V3 在开源模型中位列榜首，在多项指标上吊打地表最强大模型 GPT-4o
Deepseek V3 在模型结构、训练方法、推理加速等方面具有哪些先进优势和技术特色？这些新技术对未来大模型的发展又会带来怎样的启发呢？

发表于 2025-4-22 15:26:55

DeepSeek V3模型采用了自研的MoE（Mixture of Experts）架构，参数量达到6710亿，性能与GPT-4o不相上下，展现出强大的计算能力和灵活性。与之前的版本相比，DeepSeek V3在多个方面进行了显著的改进。
首先，DeepSeek V3在推理效率上有了显著提升。通过优化自注意力机制和引入新的计算策略，模型能够在更短的时间内处理更复杂的任务。这种改进使得DeepSeek V3在处理大规模数据时，能够保持高效的响应速度和准确性。同时，模型的上下文处理能力也得到了增强，支持更长的上下文输入，这对于需要深度理解和生成的任务尤为重要。
其次，DeepSeek V3在多模态处理能力上也有了突破。新模型能够更好地理解和生成视觉内容，支持动态分辨率和长宽比的图像处理。这一特性使得DeepSeek V3在视觉定位、梗图解析、OCR（光学字符识别）和故事生成等应用场景中表现出色，能够满足用户对多样化内容生成的需求。
DeepSeek V3还引入了联网搜索功能，用户可以通过模型实时获取最新的信息和数据。这一功能的实现，使得模型不仅限于静态知识的生成，还能够动态地响应用户的查询，提供更为全面和准确的答案。这种实时信息获取能力，极大地扩展了模型的应用场景，使其在实际使用中更加灵活和实用。
最后，DeepSeek V3在开源方面也秉持了以往的传统，模型的权重和相关文档均已开源，用户可以自由使用和修改。这种开放的态度不仅促进了技术的传播，也为开发者提供了更多的创新空间。
总之，DeepSeek V3模型通过在推理效率、多模态处理能力、联网搜索功能以及开源策略等方面的创新，展现了其在人工智能领域的领先地位，为未来的应用和研究提供了强大的支持。

发表于 2025-4-22 15:36:21

Deepseek V3 的主要优势

基准性能强：DeepSeek V3 在多个 Benchmarks 上名列前茅，甚至一度吊打 GPT-4o
训练成本低：Deepseek V3 的完整训练仅需 2.788M H800 GPU 小时
推理速度快：Deepseek V3 每秒的吞吐量可达 60 tokens
模型设计好：Deepseek V3 采用 MoE 结构，完整模型达到 671B 的参数量，其中单个 token 激活 37B 参数

模型架构创新

1. 混合专家(MoE)架构

DeepSeek V3采用了创新的混合专家(MoE)架构，该架构包含6710亿参数，每次激活370亿参数。这种架构通过将模型分割成多个“专家”子模型，每个专家负责处理特定的任务或数据类型，从而实现了对复杂任务的有效处理。在MoE架构中，不是所有的专家都会参与到每一次的计算中，而是通过一种路由机制动态选择一部分专家进行计算。这种设计使得DeepSeek V3在处理大规模数据时更加高效，同时减少了不必要的计算和内存消耗。
2. 无辅助损失的负载均衡策略

DeepSeek V3率先采用了无辅助损失的负载均衡策略，这种策略通过动态调整偏置项来保持专家负载的平衡，避免了因负载均衡而导致的性能下降。具体来说，每个专家的负载通过sigmoid函数计算的亲和度分数来确定，并通过归一化处理生成门控值。为了实现负载均衡，引入了偏置项，并将其加到亲和度分数上，以确定每个令牌的路由选择。通过在训练过程中动态调整偏置项，DeepSeek V3能够在训练过程中保持专家负载的平衡，从而提高模型性能。
3. 多令牌预测(MTP)目标

DeepSeek V3还引入了多令牌预测(MTP)目标，通过在每个预测深度预测多个未来令牌来增强模型的预测能力。这种策略不仅提高了模型性能，还可以用于加速推理过程中的推测性解码。具体实现上，使用多个顺序模块来预测额外的令牌，并保持完整的因果链。每个MTP模块由一个共享嵌入层、一个共享输出头、一个Transformer块和一个投影矩阵组成。对于每个输入令牌，首先将其与下一个令牌的嵌入进行线性组合，然后通过Transformer块进行处理，最后通过输出头计算预测概率。这种多令牌预测方法提高了数据的利用效率，并增强了模型的预测能力。
模型训练技术

1. FP8混合精度训练框架

DeepSeek V3在训练阶段采用了FP8混合精度训练框架，这一创新举措显著提升了模型的训练效率和扩展性。FP8作为一种8位浮点数表示法，相较于传统的FP16或FP32，能够在保持模型性能的同时减少内存占用和计算资源消耗。通过在大规模模型上验证FP8训练的可行性，DeepSeek V3展示了在14.8万亿token上的预训练仅需2.664M H800 GPU小时，这一效率是前所未有的。
在FP8混合精度训练框架的支持下，DeepSeek V3能够实现更大规模的模型训练，同时降低了训练成本。这一成果得益于算法、框架和硬件的协同设计，使得跨节点MoE训练中的通信瓶颈得到有效克服，几乎实现了完全的计算-通信重叠。这种设计不仅提高了训练效率，还降低了成本，使得DeepSeek V3成为了目前最强的开源基础模型之一。
2. 计算-通信重叠策略

DeepSeek V3通过采用计算-通信重叠策略，进一步提升了训练效率。这种策略通过优化数据传输和计算任务的调度，使得数据在节点间传输的同时，计算任务得以并行执行，从而减少了训练过程中的等待时间。具体来说，DeepSeek V3利用流水线并行计算和块状数据结构，将数据划分为固定大小的块，并在多个节点上并行处理，这些块可以重叠传输和计算，以提高训练效率。
此外，DeepSeek V3还采用了异步通信机制，允许在不等待前一消息返回的情况下发送消息，减少了通信延迟并提高了训练效率。这些策略的综合应用，使得DeepSeek V3在处理大规模数据时能够实现更高的吞吐量和更低的延迟。
3. 跨节点MoE训练通信瓶颈克服

DeepSeek V3在跨节点MoE训练中克服了通信瓶颈，这是通过算法优化和硬件升级实现的。研究者们通过设计DualPipe算法，将前向和后向计算阶段重叠，减少了管道气泡的数量，并隐藏了大部分通信开销。这种方法不仅加速了模型训练，还减少了管道气泡和峰值激活内存的使用。
DeepSeek V3的跨节点MoE训练通信瓶颈的克服，得益于团队对模型结构和训练过程的深入理解。通过精确调整各任务的优先级和资源分配，DeepSeek V3能够在计算时同时处理通信操作，几乎完全消除了流水线中的“空闲时间”。这一创新不仅提升了效率，还显著降低了对硬件资源的需求，为未来更大规模模型的训练提供了新的可扩展性框架。
推理加速技术

1. 多令牌预测(MTP)在推理中的应用

DeepSeek V3通过引入多令牌预测(MTP)技术，显著提升了模型的推理效率。MTP允许模型在每个预测步骤中预测多个未来的令牌，而不仅仅是一个，这样可以减少推理过程中的迭代次数，从而加速整体的解码过程。在实际应用中，MTP技术使得DeepSeek V3在处理长文本和复杂查询时更加迅速和高效。

推理效率提升：根据DeepSeek V3的评测结果，在DROP (3-shot F1)评测中，采用MTP技术的DeepSeek V3以91.6%的准确率领先，显示出其在处理长文本信息时的优越性能。这一成绩不仅证明了MTP在提升推理效率方面的有效性，也展示了DeepSeek V3在实际应用中的潜力。
推测性解码：MTP技术还可以用于加速推理过程中的推测性解码。通过预测多个未来令牌，模型可以更快地生成可能的输出序列，从而减少等待时间，并提高用户体验。这种技术的应用，使得DeepSeek V3在需要即时反馈的应用场景中，如智能客服和在线翻译，具有明显优势。

2. 动态冗余专家部署策略

DeepSeek V3采用了动态冗余专家部署策略，以进一步提高模型的推理性能。这种策略通过为高负载专家创建“副本”，使得任务可以分配到不同的副本上，从而缓解了计算压力并提升了整体推理速度。

负载均衡：动态冗余专家部署策略通过监控每个专家的负载情况，在训练中动态调整每个专家的偏置，使得分配更公平。这种方法避免了引入额外的优化目标，直接在负载均衡和模型性能之间找到了更优解。根据DeepSeek V3的技术报告，这种策略使得模型在保持高性能的同时，还能够有效地扩展和适应不同的负载需求。
推理吞吐量提升：在高并发场景下，动态冗余专家部署策略可以显著提升分布式推理的吞吐量。这种策略的应用，使得DeepSeek V3在处理大规模请求时能够保持稳定的服务性能，这对于需要处理大量并发请求的应用场景，如搜索引擎和推荐系统，尤为重要。
资源弹性扩展：动态冗余专家部署策略还允许模型根据实际需求进行资源的弹性扩展。这意味着在面对突然增加的请求量时，模型可以快速调整资源分配，以适应变化，确保服务的连续性和稳定性。这种灵活性为未来大模型的部署和运营提供了重要的技术支持。

经济高效的训练成本

1. GPU小时消耗控制

DeepSeek V3在训练成本控制方面取得了显著成效，其总GPU小时消耗为2.788M H800 GPU小时，这一数据在大规模语言模型训练中显得尤为突出。具体来看，预训练阶段消耗了2664K GPU小时，上下文长度扩展消耗了119K GPU小时，后训练阶段消耗了5K GPU小时。与此相比，其他顶尖模型如GPT-4o的训练成本约为1亿美元，而DeepSeek V3的训练成本仅为557.6万美元，这一成本控制能力使得DeepSeek V3在经济性方面具有明显优势。
2. 训练成本控制

DeepSeek V3的训练成本控制得益于多项技术创新和优化策略。首先，FP8混合精度训练框架的采用减少了存储需求，提升了训练效率，同时降低了训练过程中的计算资源消耗。其次，计算-通信重叠策略的应用，使得数据传输和计算任务能够并行执行，减少了训练过程中的等待时间，提高了资源利用率。此外，跨节点MoE训练通信瓶颈的克服，通过算法优化和硬件升级，进一步提升了训练效率。
DeepSeek V3的训练成本控制不仅体现在技术创新上，还体现在其对资源的精细化管理。例如，无辅助损失的负载均衡策略避免了因负载均衡而导致的性能下降，同时减少了额外的计算开销。多令牌预测(MTP)目标的引入，不仅提升了模型性能，还支持了推理加速的预测解码，从而在实际应用中减少了推理成本。
启发性

1. 模型架构与训练效率的持续优化

DeepSeek V3的发布为未来大模型的发展提供了重要的启示，尤其是在模型架构和训练效率的持续优化方面。
模型架构的创新与扩展性
DeepSeek V3采用的混合专家(MoE)架构，展示了通过细粒度的专家划分和动态路由机制来提升模型的效率和扩展性。这种架构使得模型能够根据任务需求动态调整激活的专家数量，从而在保持高性能的同时减少计算资源的消耗。未来的大模型可以借鉴这种设计理念，进一步探索如何通过架构创新来提升模型的适应性和灵活性。
训练效率的提升
DeepSeek V3在训练效率上的提升，得益于FP8混合精度训练框架和计算-通信重叠策略的应用。这些技术的应用不仅提高了训练速度，还降低了训练成本。未来的大模型训练需要更多地考虑如何通过算法优化、硬件协同设计和并行策略来进一步提升训练效率，尤其是在面对日益增长的模型规模和数据量时。
负载均衡与性能优化
DeepSeek V3通过无辅助损失的负载均衡策略，实现了专家负载的动态平衡，避免了因负载不均而导致的性能下降。这一策略的成功应用为未来大模型的训练提供了新的思路，即在不牺牲模型性能的前提下，通过智能的负载管理来优化训练过程。
2. 多模态与跨学科技术融合

DeepSeek V3的技术特色和性能表现也为多模态和跨学科技术融合提供了重要的启示。
多模态能力的拓展
DeepSeek V3使用OCRvl2技术，提升了对图片中文字、格式排版和公式的识别能力，这表明了多模态技术在提升模型性能方面的潜力。未来的大模型可以考虑如何整合更多的模态，如图像、声音和文本，以实现更全面的信息理解和处理。
跨学科技术的融合
DeepSeek V3的成功也体现了跨学科技术融合的重要性。通过结合计算机视觉、自然语言处理和机器学习等领域的技术，DeepSeek V3在多个任务上展现出了卓越的性能。未来的大模型发展需要更多地考虑如何融合不同学科的技术，以创造出更全面、更智能的AI系统。
创新技术的探索与应用
DeepSeek V3在多令牌预测(MTP)目标和动态冗余专家部署策略等方面的创新，为未来大模型的发展提供了新的方向。这些技术的探索和应用不仅提升了模型的性能，也为解决大模型面临的挑战提供了新的思路。未来的大模型需要在这些领域进行更深入的研究和探索，以实现技术的持续进步和创新。

发表于 2025-4-22 15:50:10

Hi本文的主要目的是了解DeepSeek-R1使用的底层模型的架构，为后续DeepSeek-R1训练推理技术作铺垫！
本文主要内容集中在DeepSeek三个版本模型的架构的解析上，不会涉及训练相关的细节。
DeepSeek-V1

论文：DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
链接：http://arxiv.org/abs/2401.02954
DeepSeek-V1模型的架构和LLama的微设计几乎是相同的，它们都使用了RMSNorm、都使用了SwiGLU的激活函数，都使用了RoPE和GQA，这与目前所有的Dense Network设计都是相同的。它只在宏观的层数和FFN的中间宽度与LLama不同。关于上述结构的具体原理和细节可以参考我之前的文章。
JarsonCai：Transformer原理、演进DeepSeek-V2

论文：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
链接：http://arxiv.org/abs/2405.04434
DeepSeek-V2在模型架构上进行了创新，统一使用了MoE大模型的架构。DeepSeek一共发布了两个开源模型，分别是DeepSeek-V2和其小版本模型DeepSeek-V2-Lite。
DeepSeek-V2：236B全参数，21B的激活参数，128K上下文
DeepSeeK-V2-Lite：15.7B全参数，2.4B的激活参数，32k上下文
多头潜在自注意力（MLA）

首先，我们要了解为什么要优化多头自注意力？
在自回归模型的任务在生成新的token时，都需要更新输入序列并重新计算自注意力机制，这在处理长序列时非常耗时。然而，历史tokens对应的key和value向量在生成后续token时往往保持不变或者变化较小。这部分内容就可以缓存起来，在后续计算中直接复用，而不是重新计算，这也就是我们常说的KV Cache。那么在进行长序列的模型推理时，KV Cache会激增，并对内存带宽造成巨大的压力。
因此，一些减少KV Cache的结构被提出，分别是多查询注意力（MQA）和分组查询注意力（GQA），它们都被用于降低计算需要的内存带宽，注意力的计算公式如下：

MHA在最早的Transformer结构中被使用，结合上述注意力计算公式可知，MHA将Q、K、V分为

个head（图中为8个），为了节省计算需要缓存的KV数量可以表示为

其中

代表已经生成的token数量，

代表Transformer自注意力头的数量，

则代表每个头K向量的维度。
MQA为了减少需要缓存的KV数，将同一层的Transformer结构中的所有Q共享一个K、V，这样需要缓存的KV数量就会减少到原来的

，最终的KV数变为

。虽然MQA极大地减少了长序列文本计算需要缓存的KV数量，但在性能下降上也较为明显。
GQA则是MHA和MQA的折中方案，它将Q进行分组，每个组内共享一个K、V，这个结构也在LLama2、3中广泛使用，根据组数的变化，GQA可以演变为MHA和MQA。

GQA-1 = MQA：只有一个组，GQA等于MQA，一组key，value被所有query共享。
GQA-H = MHA：如果组数和头数相同的时候，每一组就只有一个头，退化为MHA。

复制代码

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-10.jpg

MHA / GQA / MQA / MLA

MLA的核心是通过K、V的低级联合压缩来减少KV Cache。

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-11.jpg

MLA的详细计算图

第一步：向下投影得到潜在向量。假设输入的维度为[seq_length, embedding_dim]，MHA的第一步通过可训练的权重矩阵

将输入的embedding转化为Q、K、V三个矩阵，经过转化的Q、K、V矩阵和原输入的维度是相同的，都为[seq_length, embedding_dim]。然而MLA将这一步变为了向下投影，最终的得到的维度为[seq_length, latent_dim]，latent_dim的大小会远小于embedding_dim。过程计算公式如下：

其中的

是转换矩阵，其中上标的

代表向下投影的意思，

代表输入的embedding向量。
第二步：向上投影得到多头Q、K、V。MLA通过一个向上投影的转化矩阵再将维度增大，根据之前的维度为[seq-length, latent_dim]，转化之后的维度回到[seq_length, embedding_dim]，或者回到另一个维度的值（远大于latent_dim），然后将其分为多个头。过程计算公式如下:

第三步：对Q、K应用旋转位置编码(RoPE)，并进行拼接。RoPE主要是为了应对长文本序列时保持相对位置信息，在这里不需要深入了解，你只需要知道它是一种位置编码技术，过程公式计算如下：

第四步：最终进行Attention的计算。首先计算每个头的注意力向量，然后通过拼接得到最终的注意力矩阵，由于拼接之后的维度增大，则需要额外引入一个维度转换矩阵

。过程公式计算如下：

那么MLA到底是如何节省显存并增加推理效率的呢？

如图所示，DeepSeek模型在KV上进行了多分支处理。

一：低秩压缩降低显存使用。学习过高效微调技术的同学一定对Adapter模块很熟悉，与这里的低秩压缩类似，都先将维度降低再进行增大，可以大大提升计算效率。这样单个token的KV Cache维度从降低到lantent_dim的维度，显著减少显存占用。
二：解耦RoPE解决位置编码冲突。如图，假设直接对KV矩阵应用旋转位置编码（RoPE）会导致矩阵吸收失效。这样说可能会很难理解，那我们从矩阵吸收的原理来讲解：
假设原始K计算过程为：
直接对其应用RoPE：
此时的QK点积为：当需要将权重矩阵和合并时（矩阵吸收），因为是位置相关的旋转矩阵，无法实现下面的交换律：旋转矩阵破坏了矩阵乘法的结合率。
所以MLA的解决方案是创建独立分支来预先计算旋转基向量，主分支保持线性变化最终K向量重构为：
所以点积变化为：
这与原始的RoPE等效，所以如图所示，最终MLA只需要缓存潜向量和k对应的旋转位置编码结果。其中计算量也会大大减少。按照初始维度为4096，中间潜向量维度为512的情况，计算量差别如下：

方案	计算量（d=4096, latent_dim=512）
原始RoPE	2 × d^2 = 33M FLOPS
MLA方案	d × c + d × 64 = 2.2M FLOPS (RoPE的子空间维度为64)

传统MoE架构

想要比较快的了解稠密Transformers的架构和MoE架构的区别，可以看下图，非常直观。

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-36.jpg

Transformer / MoE / MoE with muiltiple devices

最左边的图代表了经典的Transformer Block的结构，而MoE则是将FFN层变成了多个并行的小型FFN密集排布，最前面加入一个门控机制。假设有多个设备时，FFN和门控机制可以均匀地分布在多个设备上，其他权重则在不同的设备上复制一份。
这里的门控函数

对MoE层很重要，该MoE网络使用softmax激活函数建模，使用指令分配传入token的每个专家的权重，详细计算如下：

其中

是MoE层的输入标记，

和

是前馈层（FFN）的输入和输出的投影矩阵。矢量

由门控网络计算，

对于每个专家都有一个非负数，其中大部分为零，这意味着token不会分发给该专家。每个token会被分发到两名专家，中的相应条目非零，代表专家对最终网络的贡献程度。最终输出则为所有专家输出的加权平均值。
DeepSeekMoE架构

论文：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
链接：https://arxiv.org/abs/2401.06066
说完了最早的MoE模型架构，我们来说一说DeepSeekMoE模型与它有什么不同之处。

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-45.jpg

DeepSeekMoE的结构具体细节

图中的（a）就是我们上文中所说的传统MoE架构的路由选择策略。DeepSeekMoE架构在它的基础上更改了路由的策略，演化出了（b）、（c）两种架构，分别叫做精细专家分割和共享专家隔离策略。

精细专家分割：论文作者认为在专家数量有限的情况下，分配给不同专家可能涵盖不同的知识类型。如果每个token都能路由到更多的专家上，多样化的知识可以在不同专家上得到分解和学习。具体的措施如下：在专家参数和计算成本保持不变的前提下，将MoE层中的每个FFN（专家）的隐藏层维度减少到原来的，然后专家的数量扩展为原来的倍，推理的时候路由专家的数量也增加为原来的倍，这样参数成本和推理成本都是保持不变的。

从训练视角举例：
就是在训练的时候使用更多的专家进行学习知识，那么每个专家的知识领域的范围会更小，专家会更加专精，得到更加集中的知识分配。
从推理视角举例：
举一个例子，你手上有额定的资金去请专家，如果使用图（a）中的策略，你请了10个专家，但每个专家都比较贵，每个专家涵盖的知识也就更多，你每次只能同时使用两个专家去解决问题。那么问题基数增多之后，一定会出现少量的两个专家不能解决的问题，可能需要3个专家的情况，但这对于你来说就是超支了。

但如果你使用图（b）的策略，你可以请到20个专家，每个专家的领域覆盖的更少，价格是之前的一半，在同样的投入下，你可以使用4个专家，这样在问题基数增多时，问题不能被解决的概率就会大大降低。主要原因就是4个专家的组合比2个更贵专家的组合更能应对问题的多样性。

共享专家隔离：作者认为在传统的专家架构中，分配给不同的专家的知识中存在一些常识信息，这部分知识都需要在各自专家的参数中自行获取，这会造成一定的冗余。所以DeepSeekMoE架构在精细专家分割策略基础上再加入了共享专家隔离策略，如图（c）所示，1号专家被作为共享专家，然后路由专家从4个减少到3个。

所以假设共享专家的数量为

个，总专家数为

个，路由专家总数为

个，推理激活使用的路由专家总数为

个。
训练专家损失函数相关的细节可以参考DeepSeekMoE论文，在这里我们只讨论架构，不讨论训练细节。
DeepSeek-V3

论文：DeepSeek-V3 Technical Report
链接：https://arxiv.org/abs/2412.19437
DeepSeek-V3使用了和V2相同的架构，只是将模型的规模整体进行了扩大，最大的MoE模型总参数为671B，每个token将会激活37B的参数进行推理。

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-53.jpg

DeepSeek-V3架构图

DeepSeek-V3的基本架构使用MLA和DeepSeekMoE架构，在此基础上，为了进一步提升训练的效率，使用了多令牌预测（Multi-Token Prediction，MTP）的技术。
多令牌预测

多令牌预测是什么？为什么要使用多令牌预测的技术呢?
目前主流的大模型都是decode-base的模型结构，模型在训练和推理的时候都使用上一个token推理下一个token的过程。每次生成一个token都需要跟访存交互以及加载KV cache，最终完成下一个token的前向计算。如此频繁地访问存储通常会因为访存效率形成训练和推理的瓶颈。
那么多令牌预测技术就是为了优化这种性能瓶颈的策略，和字面意思相同，它将一个token的生成转变为多个token的生成，提升训练和推理的性能。

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-54.jpg

多令牌预测实现

绿色的部分分别是embedding和output head，它们对于每个MTP模块都是共享的，需要同时预测N个令牌，就需要N个MTP模块，MTP模块的实现细节如下：
假设对第

个token

，预测深度为

。预测第

个token，隐藏层维度为

。

首先第个输入token通过一层共享的embedding layer
将层（上一层）的隐藏层输出做归一化处理RMSNorm
再对第位置的token embedding做归一化处理
将两个归一化处理的结果拼接（concat）之后，通过一个投影矩阵将合并后从重新减为
再通过一个Transformer层获得第个MTP模块后的隐藏层的输出。
通过共享head输出后进行损失计算时，使用的label是第个token

上述流程是取第

个MTP模块的计算结果，可能会有点抽象，那么下面这个图会把训练预测和损失计算将清楚。
我们举一个例子来清晰token的流向，假设预测深度为3，对应的MTP模块就有三个，那么主模块和额外3个MTP模块的token数据流向如下图所示：

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-68.jpg

token在每个模块的数据流向

模块之间的箭头是代表结构内部存在一定的串行关系，左边一排小方块代表通过该模块的输入，右边一排代表token通过该模块计算之后用于计算损失的标签。
然后我们继续通过该例子结合模型结构来追踪数据的流向以及损失的计算，如下图所示：

MTP技术token数据流（以预测深度3为例）

一个token经过共享的embedding层，通过main model和三个MTP模块，经过共享的输出头得到4个预测的token分别和对应的标签做损失计算。
借用一张其他博客关于Meta-MTP模块的解读图：

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-70.jpg

Meta-MTP（来源：https://zhuanlan.zhihu.com/p/18056041194）

可以看到的是，DeepSeek和Meta实现的MTP非常相似，只是DeepSeek-V3多了前后模块的串行关系，后面的MTP模块必须等待上一层main model或者MTP计算得到隐藏层输出才能开始计算。
那么为什么要这么设计呢？
假设预测深度为3（MTP预测的token数量），我们知道两者都通过第1个token，连续预测2、3、4、5，区别是DeepSeeK-V3在预测第3个token时加入了前一层的隐藏层输出，以此类推。这种串联结构允许模型在训练时预先规划未来token的表示，也更加遵循因果关系，加入了连续预测token内部的前后关系。这种结构在性能上牺牲了一定的并行性，但也保留了因果一致性。
量化训练技术

低精度技术可以减少计算成本，加快计算速度。过去低精度量化技术在推理领域取得了重大进展，但在训练阶段低精度量化技术应用得却不多。

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-71.jpg

混合精度训练框架

DeepSeek-V3训练使用了上述混合精度训练框架，将大多数核心计算内核放到FP8精度中实现。如图中Fprop（前向传播）、Dgrad（激活后向传播）和Wgrad（权重后向传播）都使用了FP8进行计算，与原来的BF16精度计算相比，理论速度提高一倍。
FP8的Wgrad GEMM允许将激活存储在FP8中，以便后向传播中使用，这大大减少了内存消耗。

GEMM是矩阵乘法的高效实现，高性能的GEMM能加速神经网络的计算效率。

发表于 2025-4-22 15:59:08

✨ DeepSeekV3

685B 参数的规模、超长文本的支持能力，加上 MoE 混合专家架构，彻底定义了下一代语言模型的新标准！
参数量：685B！超越天际的参数规模
状态：权重已开放下载！
README：“先上传权重，README稍后补上！”
<hr/>

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-1.jpg

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-2.jpg

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？-3.jpg

模型亮点 ✨

超级大脑：61 层 Transformer，隐藏层 7168 维，堪称语言模型的「巨舰」。
超长序列支持：最大支持 163840 的位置嵌入，完美处理超长文本，绝不丢失细节。
混合专家(MoE)：256 个专家动态路由，智能分配计算任务，效率与性能兼备。
动态位置嵌入：结合 RoPE 动态扩展机制，适应更广泛的场景。
高效量化：支持 FP8 格式量化，部署友好，资源占用大幅降低。
注意力机制改进：疑似使用 LoRA 思想进一步改进 Multi Latent Attention。
开源爆点

官方直接放出 完整权重，参数高达 685B！在超大模型领域中堪称重量级选手！
唯一的缺点是：没有 README ，一副「我们就是这么豪横」的气质。
语录

&#34;README？我们还没来得及写，因为在忙着上传权重。&#34;

网友评价 ️

网友A：&#34;这模型参数直接拉满，685B 看得人头皮发麻！&#34;
网友B：&#34;README 算啥，先开源权重才是硬道理！&#34;
网友C：&#34;没有文档？没关系，代码自己摸，就是差能跑起来的显卡数。&#34;
<hr/>权重链接

DeepSeekV3 权重下载
如何评价deepseek上线的deepseek-V3模型？
如何评价deepseek上线的deepseek-V3模型？ DeepSeek-V3 的 LiveBench 分数曝光：超越 Gemini-2.0 深入探讨 DeepSeek V3 GGUF 量化模型：2位量化居然可用！

发表于 2025-4-22 16:12:29

DeepSeekv3 由幻方量化自主研发，具备“大规模硬件投入、底层训练框架自研、完全开源”三大鲜明特征。与主流大模型（如 OpenAI、Meta、百度文心一言、智谱 GLM、阿里 Qwen）不同，DeepSeekv3 并未急于商业化，而是将焦点放在“超长期主义”的底层技术深耕，宣称在部分评测中可超越 ChatGPT-4.0。本文将系统介绍 DeepSeekv3 的技术路线与策略，分析其优劣与面临的产业挑战，并结合国内外大模型开源生态现状，对其发展前景做出多维度评估。我们将从技术发展规律、行业生态、商业模式与社会影响等层面，探讨 DeepSeekv3 技术路线的“正确性”，以及在国内外竞争格局下的可能定位。

1. 引言：大模型竞赛的多元格局

1.1 大模型的全球繁荣与国内现状

自 GPT-3 以来，大语言模型（LLM）的参数规模与应用潜能出现爆炸式增长。OpenAI、Meta 等海外巨头通过庞大算力与海量数据，将大模型推向超大规模。国内也陆续出现多家自主或合作研发的模型项目（如百度文心一言、智谱 GLM、阿里巴巴 Qwen 等），在中文对话、行业应用等场景取得一定进展。但在整体生态与社区影响力方面，海外依然占据主导。

1.2 DeepSeekv3 的出现与独特定位

DeepSeekv3 由量化投资机构幻方量化自研，最大特点在于“三大要素”：
1. 大规模硬件：率先购入英伟达 V100、A100 等高端 GPU，搭建超大算力集群；
2. 自研底层框架：在分布式训练、内存优化、调度管理等方面深度定制；
3. 完全开源：公开模型权重与训练代码，鼓励社区自由使用和二次开发。

其背后理念是“超长期主义”——当下并未大规模商业化，而是将资源聚焦于底层基建和长期竞争力上。然而，这种思路也引发诸多争议与质疑：短期盈利模式缺失、完全开源是否会削弱竞争壁垒、对英伟达 GPU 的重度依赖能否持续等。尽管如此，DeepSeekv3 依然在部分测试中呈现出竞争力，且在中国开源大模型尚未形成全球影响力的环境中，探索出一条与众不同的发展路线。

2. 技术路线：大规模硬件与自主训练框架

2.1 大模型核心需求与发展趋势

大模型的性能在很大程度上取决于以下因素：
• 参数规模：从十亿级到千亿甚至万亿级，模型可拥有更强的理解与生成能力；
• 数据质量与多样性：训练语料的丰富性与干净度，直接影响模型泛化水平；
• 算力投入：对 GPU/TPU 等硬件资源的需求呈指数级增长，训练过程繁琐且成本高昂；
• 推理优化：模型落地时，如何在推理阶段实现低延迟、高吞吐和可扩展性是关键。

2.2 DeepSeekv3 的自研框架与算力优势
1. 自研框架
幻方量化根据大语言模型的特定需求，对分布式训练、并行调度、数据流水线、混合精度计算等做了针对性研发，相比依赖纯开源框架（如 PyTorch、TensorFlow、deepspeed），更能灵活优化集群资源、提高训练效率。
2. 英伟达 GPU 大规模投入
DeepSeekv3 早期购入大量 V100、A100 乃至后期的 H800，形成了庞大的 GPU 集群，对大模型训练中“算力短板”做了前瞻性布局。这在短期内确实支撑了 DeepSeekv3 的快速迭代，也为其在金融量化业务上带来“隐性回报”。
3. 推理端极低成本
通过模型量化（INT8、INT4）、独特的MLA、MOE等手段来降低推理阶段的资源占用；并利用分层缓存或并行策略保证推理响应速度与吞吐量。然而，这些手段也存在一定精度损耗或工程复杂度，需要针对不同场景平衡。

3. 完全开源与超长期主义

3.1 开源策略的内涵与挑战

DeepSeekv3 将核心代码、模型权重对外全部开放，目的是借力全球开发者和研究者的力量，快速迭代和演进。
• 优势：低门槛，吸引更多贡献者加入，可“以小搏大”形成社区效应；
• 劣势：缺乏商业护城河，竞争对手可轻松借鉴技术成果，若无持续资源投入，易陷入“有名无实”的境地。

3.2 “超长期主义”与短期盈利难题

DeepSeekv3 并未像 OpenAI、百度、阿里那样在短期内大规模推行商业化，而是依托幻方量化的内部资金与金融收入支撑巨额研发费用。
• 策略合理性：若 AI 替代人工的临界点尚未到来，提前深耕算力与底层算法有可能在未来形成难以撼动的壁垒。
• 风险：假如行业技术或市场竞争节奏变化快，DeepSeekv3 若错失关键应用落地期，可能面临资金链与影响力的双重难题。

4. 与主流大模型的对比：OpenAI、Meta、百度、智谱、阿里 Qwen

4.1 DeepSeekv3 与 OpenAI (GPT-4)
1. 闭源与开源的对立
• OpenAI：GPT-4 保持高度闭源，仅提供 API 访问权限以保护核心技术壁垒，最近的o1模型直接隐藏掉了中间推理过程；
• DeepSeekv3：完全开源，意在吸引更广泛的开发者参与。
2. 商业化路径
• OpenAI：通过 GPT-4 API 收费、ChatGPT Plus 订阅模式实现大规模变现，与微软深度合作推动企业级应用；
• DeepSeekv3：尚无明确的商业化规划，依赖幻方量化内部的资金与金融业务支撑，api的成本也是做到了行业最低。
3. 对比总结
• OpenAI 的路线适合快速变现，但对技术透明度要求高的开发者群体吸引力有限；
• DeepSeekv3 的完全开源更具技术共享价值，但能否吸引国际社区的深度参与仍是未知数。

4.2 DeepSeekv3 与 Meta (Llama 系列)
1. 开源策略
• Meta：Llama 系列采取部分开源策略（如 Llama-2），开放权重并引入许可协议，催生了广受欢迎的 Llama.cpp 、llama-vl、llama-factory、llama-mesh等一系列生态工具；
• DeepSeekv3：同为开源，却未出现类似“llama.cpp”这样的爆款工具，国内与海外社区响应度尚显不足。
2. 生态影响力
• Meta：依托全球社交网络与行业资源，在社区与行业生态中占据主导；
• DeepSeekv3：背靠金融量化机构，国际化生态影响力尚需时间培育。
3. 对比总结
• Meta 的路线显示，开放度与生态建设密切相关；
• DeepSeekv3 在全球化兼容和工具链建设上需要进一步投入。

4.3 DeepSeekv3 与百度文心一言、智谱 GLM、阿里 Qwen
1. 中文场景 vs. 通用场景
• 百度、智谱、阿里：更多依托现有业务生态（搜索、云计算、电商、社交），形成快速落地能力；
• DeepSeekv3：完全开源，但在国内落地推广尚不显著，缺少 B 端或 C 端场景深度结合。
2. 商业化与生态建设
• 百度、智谱、阿里：基于自身庞大的用户与企业客户资源，易于推动行业应用；
• DeepSeekv3：定位通用底层技术，需要额外的社区运营与行业合作来形成规模效应。
3. 对比总结
• 国内大模型更多是“依托业务生态 + 局部开源”，而 DeepSeekv3 则“资源自持 + 完全开源”。
• 若缺乏示范应用，DeepSeekv3 可能难以形成自我造血机能。

5. 国内模型开源与社区发展的困境

5.1 为什么国内开源并未引发大规模技术贡献？
1. 开源模式的局限：国内项目往往缺少系统的文档、示例、社区运营，而是“只放出代码”，难以吸引海外乃至国内开发者深度参与。
2. 多语言适配不足：部分国内模型在英文或多语言上的性能逊色，很难融入全球主流社区；许可协议和知识产权问题也让国外开发者望而却步。
3. 缺少示范性应用：像 Llama.cpp 这类“即插即用”“轻量部署”的引擎在国内尚未火爆，难以形成下游生态的爆发点。

5.2 DeepSeekv3 如何突围？
• 兼容海外工具链：在语言与技术工具上对接 Hugging Face、C++/Rust 推理优化等国际通用生态，降低使用门槛；
• 行业化特色：将其金融量化的独特应用案例包装成模板，让外部对 DeepSeekv3 在高价值领域的效果有更直观理解，从而吸引专业开发者与机构进驻；
• 持续社区投入：建立官方文档、示例工程、论坛和优质教程，为开发者提供“点对点”的支持。

6. 英伟达垄断与硬件变局

6.1 依赖 GPU 的瓶颈与潜在风险

DeepSeekv3 对英伟达 GPU 的大规模采购固然带来算力优势，却也面临：
• 硬件成本与供应不确定：英伟达 GPU 价格昂贵，产能有限，且受地缘政治、市场波动影响；
• 国产芯片或谷歌 TPU 的出现：一旦未来出现性价比更优或生态更完整的方案，DeepSeekv3 前期硬件投入可能陷入贬值或闲置。

6.2 对策与生态兼容
• 多硬件兼容：建议 DeepSeekv3 逐步在框架层面实现对非英伟达硬件的兼容测试，以免在竞争性市场中被制约；
• 云端弹性算力：通过与国际或国内云厂商合作，在云平台上为中小团队提供更灵活的训练和部署方案。

7. 商业模式与社会影响

7.1 盈利模式的长程探讨
1. 企业级与政企服务：当大模型在商务、办公、政务等领域需求攀升，DeepSeekv3 可提供定制化解决方案或技术支持服务；
2. 金融业务内循环：幻方量化自身的量化交易、风险控制可能已从 DeepSeekv3 中获益，这部分“隐性回报”或足以支撑项目继续前行；
3. 生态驱动：若社区形成一定规模，可以在增值插件、数据增补、推理加速等领域收费，类似“开源+服务”的模式。

7.2 AI 替代人工与监管挑战

大模型在未来数年或具备更多自动化能力，产生结构性失业风险、算法歧视、数据合规等一系列问题。
• 安全策略与内容审查：DeepSeekv3 在开源社区中需要主动加入安全策略、内容审查等技术模块，为潜在监管要求留出空间；
• 社会配套与监管：社会层面则需建立配套的法规、伦理、再教育机制，减缓 AI 替代的负面冲击。

8. DeepSeekv3 技术路线的正确性及前景评估

8.1 多维度判断
1. 技术演进规律：大规模算力+自研框架在中长期具备竞争力，DeepSeekv3 的路线并无明显悖论；
2. 行业生态：完全开源的定位抓住了开源生态的潜力，但必须在社区运营与应用示范上双管齐下；
3. 商业风险：短期盈利路径模糊，加之英伟达硬件垄断与国内开源文化尚未繁荣，存在极大不确定性。

8.2 可能的关键成功要素
1. 持续投入与组织保障：幻方量化能否保持数年甚至十数年的技术/资金支持，是 DeepSeekv3 超长期主义能否落地的根本；
2. 兼容海外与国内工具链：吸引更多开源贡献者，形成全球生态；
3. 行业应用示范：将金融领域的成功经验复用到其他垂直行业，带动外部用户共建；
4. 硬件多元化：加强对 GPU 以外硬件的适配能力，以降低对单一供应商的风险。

9. 结论：向未来迈进的可能路径

DeepSeekv3 代表了一种“与众不同”的大模型研发思路：不依赖外部商业化压力，也不急于通过 API 或 SaaS 收费来回收成本，而是在幻方量化的内部资金与量化技术之上，构筑自研框架与大规模算力布局，并以完全开源、超长期主义的方式打造 AI 生态。从技术趋势看，此举并不违背大模型发展客观规律；从市场与生态角度看，国内开源大模型尚未形成可比肩 Llama 等国际项目的热潮，DeepSeekv3 能否抓住机会在社区中崛起，仍是未知数。

如若 DeepSeekv3 能在未来三到五年内持续迭代、形成丰富的行业应用示例、并建立起有活力的全球开发者社区，那么其目前“超长期主义”的沉淀或将在大模型全面爆发时获得丰厚回报。反之，若缺乏可持续运营和关键时刻的商业落地，完全开源可能难以转化为核心护城河。市场的激烈竞争和技术迭代速度，也可能令这笔投入变为“沉没成本”。

总体而言，DeepSeekv3 的技术路线具备一定“正确性”与独特价值：深耕算力与自研框架为其提供长期成长空间，开源与超长期主义是一种值得关注的探索。然而，这条道路伴随着相当程度的不确定性和风险，需要更完善的社区策略、更灵活的商业模式以及稳健的资源支持，方能在大模型时代的浪潮里占据一席之地。

参考文献（示例）
1. OpenAI (2023). GPT-4 Technical Report. [Online]. Available: https://openai.com/
2. Meta AI (2023). Llama: Open and Efficient Foundation Language Models. [Online]. Available: https://ai.facebook.com/tools/llama
3. 百度 AI (2023). 文心一言（ERNIE Bot）技术白皮书. [Online]. Available: https://cloud.baidu.com/
4. 智谱 AI (2023). GLM & ChatGLM 系列模型文档. [Online]. Available: https://github.com/THUDM
5. 阿里云 (2023). Qwen（通义千问）研发与应用介绍. [Online]. Available: https://www.aliyun.com/
6. Brown, M. et al. (2021). “An Overview of Large Language Models: Techniques, Trends, and Transformation,” Journal of AI Research, 45(3), 102–118.
7. Zhang, K. et al. (2022). “Quantization and Pruning in AI Model Deployment,” IEEE Transactions on Neural Networks, 39(7), 541–555.
8. NVIDIA (2023). CUDA Toolkit Documentation. [Online]. Available: https://developer.nvidia.com/cuda-toolkit
9. 幻方量化 (2023). DeepSeekv3 开源项目主页. [GitHub].

怎样看待深度求索发布的大模型DeepSeek-V3？该模型有哪些先进性和技术特色？

本周热门