梁文锋署名DeepSeek新论文:应正视大模型训练瓶颈并积极改进

2025-05-22 1 0

梁文锋亲自参与的DeepSeek最新论文公布,本是一件值得关注的事,然而我们也不得不指出当前大模型训练领域存在的诸多问题,以及该论文所带来的启示的重要性。

此次团队公布了DeepSeek - V3在训练和推理过程中解决“硬件瓶颈”的方法。DeepSeek - V3仅用2048块H800就能达到超大规模集群相当的训练效果,靠的是四项创新技术,分别是内存优化、计算优化、通信优化和推理加速。

但我们必须严肃地看待当前大模型训练面临的问题。在训练大模型的道路上,一直存在着“三座大山”。首先是内存不够用,现在的大语言模型越来越庞大,需要的存储空间激增,特别是“注意力机制”产生的大量临时数据占用大量显卡内存,而高性能显存容量增长却远远跟不上需求,这是一个严重的资源不匹配问题。其次是计算效率低,传统“稠密模型”计算成本极高,“混合专家模型”虽高效但对网络带宽要求极高,这反映出当前模型架构设计的不合理性。最后是通信速度慢,多个GPU训练时的数据交换延迟严重拖慢整体训练速度,这暴露出网络通信方面的短板。

△DeepSeek - V3的基本架构

值得肯定的是,DeepSeek团队针对这些问题进行了优化。在内存优化方面,采用多头潜在注意力(MLA)减少“键值缓存”(KV Cache)的内存占用,相比其他模型,DeepSeek - V3的KV缓存大小每token仅需70 KB,大幅降低显存压力。在计算优化方面,采用MoE和FP8低精度训练,显著减少实际计算量,降低训练成本,还能在消费级GPU上运行,适合个人或中小型企业使用。在通信方面,采用多层胖树网络等优化方法,降低成本和延迟,提高吞吐量。在推理加速方面,采用多token预测(MTP)方法,生成速度提升1.8倍。

然而,我们不能仅仅满足于这些优化,还应该从论文中汲取教训,对未来的工作进行改进。从“被动适配”到“主动设计”,我们要对下一代AI硬件提出更高的要求。

在低精度计算支持方面,下一代AI硬件需要提高累积寄存器的精度,支持FP32累加或可配置精度,支持本地的细粒度量化和LogFMT,以平衡性能和准确性。在扩展与扩展融合方面,应将节点内和节点间的通信整合到统一框架,通过集成专门用于网络流量管理的协处理器,降低软件复杂性并最大化带宽利用率。在网络拓扑优化方面,以太网供应商应开发专门针对RDMA工作负载进行优化的RoCE交换机,优化路由策略,改进流量隔离或拥塞控制机制。在内存系统优化方面,可通过3D堆叠DRAM、在晶圆上进行集成工程或部署稀疏注意力加速器等方法,让硬件能记得更多。在鲁棒性与容错方面,期待下一代硬件能够支持链路层重试和快速故障切换,增加基于信用的流控和智能拥塞控制算法,避免网络集体卡死。

总之,我们不能再对大模型训练中存在的问题视而不见,必须正视这些错误,积极引导行业朝着算数快、传话快、记性好、不宕机的方向改进,才能更好地应用于大模型训练,实现高效扩展。

论文地址:https://arxiv.org/pdf/2505.09343

相关文章

电商“包邮区”西进:开启西部消费新时代,共筑国内消费大循环
28亿美元鲸吞喜马拉雅,腾讯音乐的战略棋局
氪星晚报:商业合作与产业发展新动态
京东领衔,中国快递物流在中东大放异彩
宝尊电商引领GAP强势崛起,重塑辉煌指日可待
惊爆!百度AI搜索全面上线,重塑企业信息检索新格局

发布评论