当前位置：首页 >> 每日看点 >> deepseekv3的成本这么低的根本原因是什么？

deepseekv3的成本这么低的根本原因是什么？

卡卷网 2025-01-05 17:44:36 每日看点 114

看技术报告啊，哪个报告写的多好啊。具体来说，<>MoE架构和<>FP8混合精度训练是降低DeepSeek-V3训练成本的最大因素：

<>MoE架构：通过稀疏激活机制大幅减少了计算量。<>FP8训练：通过低精度计算减少了GPU内存使用和计算开销。

相之下，数据蒸馏和外部教师模型的使用对成本的影响较小，DeepSeek-V3的成本优势主要来自于算法和架构的优化。

至于具体的技术细节，以下是哪个报告的关键内容摘取：

DeepSeek-AI发布了其最新的大型语言模型DeepSeek-V3，这款模型在性能和效率方面都取得了显著的进步，成为当前最强大的开源基础模型之一。DeepSeek-V3是一款拥有671参数的大型混合专家(MoE)模型，其中每个token会有37参数被激活。

为了实现高效的推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这两个架构在DeepSeek-V2中已经得到了充分验证。此外，DeepSeek-V3还开创了一种无辅助损失策略来平衡负载，并设置了多token预测训练目标以进一步提升性能。

架构：创新负载平衡策略和训练目标

基本架构

DeepSeek-V3的基本架构仍然基于Tranormer框架，但其采用了MLA和DeepSeekMoE架构来实现高效推理和成本效益的训练。

多头潜在注意力(MLA)

MLA架构的核心思想是对注意力键和值进行低秩联合压缩，从而减少推理过程中的Key-Value(KV)缓存。它通过以下步骤实现：

压缩:将注意力输入h_t映射到一个压缩的潜在向量c_KV_t。

生成键:使用W_UK和W_VU矩阵将c_KV_t映射到压缩的键和值。

生成:使用RoPE矩阵生成带有旋转位置嵌入(RoPE)的。

计算注意力:使用softmax函数计算注意力权重，并生成最终的注意力输出u_t。

MLA架构只需要缓存压缩后的潜在向量和带有RoPE的，从而显著减少了KV缓存，同时保持了与标准多头注意力(MHA)相当的性能。

DeepSeekMoE：辅助损失免费负载平衡

DeepSeekMoE架构使用更细粒度的专家，并将一些专家隔离为共享专家。每个token的FFN输出h’_t通过以下步骤计算：

共享专家:使用共享专家FFN()(·)计算共享专家的输出。

路由专家:使用路由专家FFN()(·)计算路由专家的输出，并使用门控值g_i,t选择激活的专家。

输出:将共享专家和路由专家的输出相加，得到最终的FFN输出h’_t。

DeepSeek-V3还引入了一种辅助损失免费负载平衡策略，通过引入偏置项_i并将其添加到相应的亲和度分数s_i,t中，来确定top-K路由。通过动态调整偏置项，DeepSeek-V3能够在整个训练过程中保持平衡的专家负载，并取得纯粹使用辅助损失的模型更好的性能。

多token预测

DeepSeek-V3采用了一种名为多token预测(MTP)的训练目标，该目标扩展了预测范围，以便在每个位置预测多个未来的token。MTP目标可以提高数据效率和模型的预测能力，并通过预先规划未来的token的表示来提升性能。

MTP实现了D个连续的模块来预测D个额外的token，每个模块都包含一个共享嵌入层、一个共享输出头、一个Tranormer模块和一个投影矩阵。每个MTP模块都使用线性投影将token的表示和嵌入相连接，然后通过Tranormer模块生成输出表示，并计算额外的预测token的概率分布。

基础设施：高效训练的基石

DeepSeek-V3的训练过程依赖于高效的计算集群和训练框架。

计算集群

DeepSeek-V3在一个配备2048个NVIDIAH800GPU的集群上进行训练。每个节点包含8个GPU，通过NVLink和NVSwitch相互连接。跨节点之间使用Infiniand(I)进行通信。

训练框架

DeepSeek-V3的训练框架基于HAI-LLM框架，该框架为高效训练提供了强大的支持。DeepSeek-V3应用了16路PipelineParalleli(PP)、64路ExpertParalleli(EP)和ZeRO-1DataParalleli(DP)。

<>双向管道并行(DualPipe)

为了解决跨节点专家并行导致的通信开销问题，DeepSeek-V3设计了一种名为DualPipe的新型管道并行算法。DualPipe通过重叠正向和反向计算通信阶段，不仅提高了模型训练速度，还减少了管道气泡的数量。

<>跨节点全连接通信

DeepSeek-V3开发了高效的跨节点全连接通信内核，以充分利用I和NVLink的带宽，并节省专门用于通信的StreamingMultiprocessors(s)。

<>极低的内存占用

DeepSeek-V3通过以下技术来降低训练过程中的内存占用：

RMSNorm和MLA上投影的重新计算:在反向传播过程中重新计算所有RMSNorm作和MLA上投影，从而消除了永久存储其输出激活的需求。

CPU上的指数移动平均:在训练过程中保存模型参数的指数移动平均(EMA)，用于早期估计模型性能，并异步更新EMA参数，从而避免额外的内存和时间开销。

多token预测中的共享嵌入和输出头:利用DualPipe策略，将模型的最浅层和最深层部署在同一个PP路径上，从而实现共享嵌入和输出头的参数和梯度，进一步提高内存效率。

FP8训练

DeepSeek-V3支持使用FP8数据格式进行混合精度训练，以实现加速训练和降低GPU内存使用。

<>混合精度框架

混合精度框架使用FP8格式进行大多数计算密集型作，而一些关键作则保留其原始数据格式，以平衡训练效率和数值稳定性。

<>量化精度提升

为了提高低精度训练的精度，DeepSeek-V3引入了几种策略：

细粒度量化:将激活和权重分组并分别进行缩放，以更好地适应异常值。

增加累积精度:将部分结果复制到FP32寄存器中进行全精度累积，以提高精度。

尾数超过指数:采用E4M3格式，即4位指数和3位尾数，以提高精度。

<>低精度存储和通信

DeepSeek-V3通过以下方式进一步降低内存和通信开销：

低精度优化器状态:使用F16格式跟踪AdamW优化器的第一和第二矩。

低精度激活:使用FP8格式缓存Linear作的激活，并对一些关键激活使用E5M6格式，或重新计算其输出。

低精度通信:将激活在MoE上投影之前量化为FP8，并使用调度组件，与MoE上投影中的FP8Fprop兼容。

预训练：迈向终极训练效率

DeepSeek-V3在一个包含14.8万亿高质量和多样化token的语料库上进行预训练。预训练过程非常稳定，没有遇到不可恢复的损失峰值或需要回的情况。

数据构建

预训练语料库经过优化，数学和编程样本的例更高，并扩展了多语言覆盖范围，包括英语和中文。数据处理流程也得到了改进，以减少冗余并保持语料库的多样性。

超参数设置

DeepSeek-V3的超参数包括Tranormer层数、隐维度、注意力头数、每头维度、KV压缩维度、查询压缩维度、RoPE维度、MoE层数、共享专家数量、路由专家数量、中间隐维度、激活专家数量、节点路由数量、多token预测深度、学习率、批大小等。

长上下文扩展

DeepSeek-V3采用与DeepSeek-V2相似的方法来启用长上下文功能。在预训练阶段之后，应用YaRN进行上下文扩展，并进行两个额外的训练阶段，将上下文窗口逐步扩展到32K和128K。

评估

DeepSeek-V3在一系列基准中进行了评估，包括多学科多项选择题、语言理解和推理、闭卷问答、阅读理解、参考消歧、语言模型、中文理解和文化、数学、代码和标准化考试等。DeepSeek-V3在大多数基准中都取得了最强大的性能，尤其是在数学和代码任务上。

讨论

DeepSeek-V3中的MTP策略和多token预测策略都取得了显著的性能提升。辅助损失免费负载平衡策略也取得了更好的性能，并且专家具有更强的专业模式。与序列级辅助损失相，批量级负载平衡方法也表现出一致的效率优势，但其也面临着潜在的挑战，例如序列或小批量中的负载不平衡以及推理过程中域转换引起的负载不平衡。

后训练：知识蒸馏与强化学习

DeepSeek-V3通过微调和强化学习进行后训练，以使其与人类偏好保持一致并进一步释放其潜力。

微调（SupervisedFine-Tuning）

DeepSeek-V3使用一个包含150万个实例的数据集进行微调，涵盖了多个领域。对于推理相关的数据集，例如数学、代码竞赛问题和逻辑谜题，使用内部DeepSeek-R1模型生成数据。对于非推理数据，例如创意写作、角色扮演和简单问答，使用DeepSeek-V2.5生成。并通过拒绝抽样方法筛选高质量数据，以确保最终训练数据的准确性和简洁性。

T设置：DeepSeek-V3使用余弦退火学习率调度进行两个epoch的训练，初始学习率为5×10^-6，并逐渐降低到1×10^-6。在训练过程中，每个序列由多个样本打包，并使用样本掩码策略确保这些示例保持隔离并相互不可见。

强化学习

DeepSeek-V3采用基于规则的奖励模型(RM)和基于模型的RM来确定模型的反馈。对于可以验证的特定规则的问题，使用基于规则的奖励来确定反馈。对于具有自由格式实答案的问题，使用奖励模型来确定答案是否与预期的实答案匹配。对于没有明确实答案的问题，奖励模型负责根据问题和反馈。

DeepSeek-V3使用组相对策略优化(GRPO)进行强化学习，该优化方法放弃了与策略模型相同大小的评论模型，而是从组分数中估计基线。在RL过程中，模型使用高温采样生成包含来自DeepSeek-R1生成数据和原始数据的模式的响应，即使在缺乏明确提示的情况下也能做到。

评估

DeepSeek-V3在一系列基准中进行了评估，包括IFEval、FRAMES、Longenchv2、GPQA、SimpleQA、C-SimpleQA、SWE-enchVerified、Aider1、LiveCodeench、Codeforces、中国高中数学奥林匹克(CNMO)2024和邀请数学考试(AIME)2024等。DeepSeek-V3在大多数基准中都取得了最强大的性能，尤其是在代码、数学和长上下文理解任务上。

讨论

DeepSeek-V3从DeepSeek-R1系列模型中蒸馏推理能力取得了成功，显著提高了其在数学和代码基准中的性能。同时，DeepSeek-V3还采用了宪法AI方法，利用DeepSeek-V3自身的投票评估结果作为反馈来源，进一步提高了其在主观评估中的性能。

DeepSeek-V3中的多token预测技术可以显著加速模型的速度，而额外的预测token的接受率在85%到90%之间，这表明其具有高度的可性。

结论、局限性和未来方向

DeepSeek-V3是一款性能强大且成本效益高的开源大型语言模型，它在推理和生成任务中都取得了显著的成果。DeepSeek-V3的训练成本非常低，只需2.788MH800GPU小时即可完成其全部训练，包括预训练、上下文长度扩展和后训练。

尽管DeepSeek-V3在性能和效率方面取得了显著成果，但它仍然存在一些局限性，尤其是在部署方面。DeepSeek-V3的推荐部署单元相对较大，这可能对小型团队构成负担。此外，尽管DeepSeek-V3的部署策略已经实现了DeepSeek-V2高两倍的端到端生成速度，但仍然存在进一步提升的空间。

DeepSeek-V3开发了创新的负载平衡策略和训练目标，以实现高效训练。它还引入了FP8训练和一系列高效的工程优化措施，以进一步降低训练成本。DeepSeek-V3还在后训练阶段取得了成功，通过知识蒸馏和强化学习技术，显著提高了其在数学和代码基准中的性能。DeepSeek-V3在一系列基准中取得了最强大的性能，尤其是在数学、代码和长上下文理解任务上。DeepSeek-V3的局限性主要在于部署方面，包括较大的部署单元和潜在的性能提升空间。DeepSeek-V3采用了宪法AI（constitutionalAI）方法，利用DeepSeek-V3自身的投票评估结果作为反馈来源，进一步提高了其在主观评估中的性能。DeepSeek-V3中的多token预测技术可以显著加速模型的速度，而额外的预测token的接受率在85%到90%之间，这表明其具有高度的可性。

DeepSeek持续致力于开源模型的道路，并计划在未来进行以下方面的研究：

进一步改进模型架构，以提高训练和推理效率，并尝试突破Tranormer架构的。持续迭代训练数据的质量和数量，并探索训练信号来源，以推动数据扩展到更广泛的维度。持续探索和迭代模型的深度思考能力，以增强其智能和问题解决能力，并扩展其推理长度和深度。探索更全面和度的模型评估方法，以防止在研究过程中优化固定的一组基准，从而产生对模型能力的误导印象并影响我们的基础评估。

DeepSeek-V3的发布标志着开源大型语言模型领域的一个重大里程碑，并为未来的研究和应用开辟了新的可能性。

简单

DeepSeek-V3开源模型，我肯定是没有资源部署了，所以只能通过它的服务进行了。

：DeepSeek

算一下星舰从地球到火星的飞行时间：

让它分析一下自己的技术文档：

最后让它较了一下自己与GPT-4o-0513

...略...

deepseekv3的成本这么低的根本原因是什么？

架构：创新负载平衡策略和训练目标