DeepSeek模型:降低大模型训练和推理成本,推动AI应用落地

2025-02-21 7:28:54 大型语言模型 author

中信证券的研究报告分析了DeepSeek V3和R1模型,指出其核心创新在于“按需分配算力,最小化冗余计算”,从而使千亿级模型能够在低成本硬件甚至边缘设备上高效运行。DeepSeek主要通过以下方式降低训练成本:1)架构创新,采用DeepSeekMoE专家架构和MLA多头潜在注意力机制,优化资源效率和内存消耗;2)FP8混合精度训练,提升速度并降低内存用量;3)训练工程优化,例如使用硬盘缓存、DualPipe算法、定制化通信内核等;4)数据策略优化,采用多token预测机制MTP,减少训练迭代次数。在推理成本方面,DeepSeek通过优化专家使用效率、支持FP8/INT8量化和模型压缩等方式降低显存占用。此外,DeepSeek的开源生态也促进了硬件厂商的适配,例如AMD、英伟达、英特尔以及国内厂商都已完成适配。报告认为DeepSeek的成功对AI芯片设计方向具有重要启示,建议关注内存升级、近存计算、以及支持DeepSeek的小模型性能提升带来的端侧硬件加速。投资策略方面,报告看好DeepSeek带来的云端推理需求爆发和端侧AI应用落地,建议关注晶圆代工、国产算力芯片、定制化存储、终端品牌和SoC五大方向。 然而,报告也指出了算力芯片供应链风险、产能不足、资本开支不及预期等风险因素。

发表评论:

最近发表