梁文锋署名DeepSeek新论文：应正视大模型训练瓶颈并积极改进首宏新闻网

梁文锋亲自参与的DeepSeek最新论文公布，本是一件值得关注的事，然而我们也不得不指出当前大模型训练领域存在的诸多问题，以及该论文所带来的启示的重要性。

此次团队公布了DeepSeek - V3在训练和推理过程中解决“硬件瓶颈”的方法。DeepSeek - V3仅用2048块H800就能达到超大规模集群相当的训练效果，靠的是四项创新技术，分别是内存优化、计算优化、通信优化和推理加速。

但我们必须严肃地看待当前大模型训练面临的问题。在训练大模型的道路上，一直存在着“三座大山”。首先是内存不够用，现在的大语言模型越来越庞大，需要的存储空间激增，特别是“注意力机制”产生的大量临时数据占用大量显卡内存，而高性能显存容量增长却远远跟不上需求，这是一个严重的资源不匹配问题。其次是计算效率低，传统“稠密模型”计算成本极高，“混合专家模型”虽高效但对网络带宽要求极高，这反映出当前模型架构设计的不合理性。最后是通信速度慢，多个GPU训练时的数据交换延迟严重拖慢整体训练速度，这暴露出网络通信方面的短板。

△DeepSeek - V3的基本架构

值得肯定的是，DeepSeek团队针对这些问题进行了优化。在内存优化方面，采用多头潜在注意力（MLA）减少“键值缓存”（KV Cache）的内存占用，相比其他模型，DeepSeek - V3的KV缓存大小每token仅需70 KB，大幅降低显存压力。在计算优化方面，采用MoE和FP8低精度训练，显著减少实际计算量，降低训练成本，还能在消费级GPU上运行，适合个人或中小型企业使用。在通信方面，采用多层胖树网络等优化方法，降低成本和延迟，提高吞吐量。在推理加速方面，采用多token预测（MTP）方法，生成速度提升1.8倍。

然而，我们不能仅仅满足于这些优化，还应该从论文中汲取教训，对未来的工作进行改进。从“被动适配”到“主动设计”，我们要对下一代AI硬件提出更高的要求。

在低精度计算支持方面，下一代AI硬件需要提高累积寄存器的精度，支持FP32累加或可配置精度，支持本地的细粒度量化和LogFMT，以平衡性能和准确性。在扩展与扩展融合方面，应将节点内和节点间的通信整合到统一框架，通过集成专门用于网络流量管理的协处理器，降低软件复杂性并最大化带宽利用率。在网络拓扑优化方面，以太网供应商应开发专门针对RDMA工作负载进行优化的RoCE交换机，优化路由策略，改进流量隔离或拥塞控制机制。在内存系统优化方面，可通过3D堆叠DRAM、在晶圆上进行集成工程或部署稀疏注意力加速器等方法，让硬件能记得更多。在鲁棒性与容错方面，期待下一代硬件能够支持链路层重试和快速故障切换，增加基于信用的流控和智能拥塞控制算法，避免网络集体卡死。

总之，我们不能再对大模型训练中存在的问题视而不见，必须正视这些错误，积极引导行业朝着算数快、传话快、记性好、不宕机的方向改进，才能更好地应用于大模型训练，实现高效扩展。

论文地址：https://arxiv.org/pdf/2505.09343

梁文锋署名DeepSeek新论文：应正视大模型训练瓶颈并积极改进

相关文章

发布评论取消回复

梁文锋署名DeepSeek新论文：应正视大模型训练瓶颈并积极改进

相关文章

发布评论 取消回复

发布评论取消回复