当前位置：首页 >> 每日看点 >> 什么配置能本地部署并运行满血671B的DeepSeek-R1？

什么配置能本地部署并运行满血671B的DeepSeek-R1？

卡卷网 2025-02-18 21:38:26 每日看点 144

请理解“满血”的含义：在8位精度下运行6710亿参数量的大模型。

有一个最保守的公式来计算内存用量：

M = (P x 4) / (32 / Q) x 1.2

M是所需内存（GiB），P是模型参数量（1B计量），Q是精度位数。算上模型副本、上下文等额外开销，再粗略地乘1.2考虑进去。

则，在Q8下需要805.2 GiB内存；

在Q4下需要402.6 GiB内存

若你使用GPU推理：

	80G显存单卡（A100/A800/H100/H800/…）对应服务器台数	48G显存单卡（L40/6000 Ada/A6000/…）对应服务器台数	24G显存单卡（4090/5090/…）对应服务器台数
Q8精度（冗余考虑）	2台8卡服务器	3台8卡服务器	5台8卡服务器
Q8精度	1台8卡服务器+1台4卡服务器	2台8卡服务器+1台4卡服务器	4台8卡服务器+1台4卡服务器
Q4精度	1台6卡服务器	1台8卡服务器+1台2卡服务器	3台8卡服务器

若你使用CPU推理：

跑Q8至少需要双路EPYC 9004/9005+1T内存的服务器1台。

Q4同理，改变内存即可。

由于内存带宽瓶颈或CPU并行算力弱，跑这个量级的LLM不会有任何冗余算力空间，推理速度也慢，而且你如果敢用CPU搞微调和训练……基本无法使用。

你要认真的话，我稍微查了下价格，最划算的当属8卡L40服务器，在某东一台仅需35万～40万，单卡算力比肩4090，性价比远高于8卡A100/A800（150万+）。当然，你如果需要全流程的预训练+迭代+调优+……，这种L40/A6000大规模训练会受通信带宽影响，你要来真的，还得是A100/H100。

至于微调需求（我理解的题干所描述“专项训练”），使用LoRA微调方法的显存需求量和推理差不多，全参数微调则需6～10倍的推理显存需量。

紧急补充：

评论区又有老哥指出：

刚刚诞生的开源项目Ktransformer可以提供非常低的推理成本，链接：https://github.com/kvcache-ai/ktransformers

我在b站找到了一个教程视频：https://b23.tv/Eq30UrG

简单来讲，利用deepseek的多专家机制，把回答问题刚需的专家拽到GPU里，别的专家缓存在内存里代替巨量显存占用。如此就能用一块GPU+大容量RAM+CPU混动实现超低成本推理。

如果题主只有推理部署需求，不搞微调，强烈建议此全新方案。届时可以用双路9005/5代铂金+1T内存+一块专业显卡来完成推理任务。

我的最新文章整合了各种预算方案，各位可以看看，字数虽少但看点丰富：

YangWannaSleep：盘点本地部署满血deepseek-r1的各种硬件配置方案 #1