新京报贝壳财经讯(记者韦博雅)5月16日,于华为云AI峰会上,华为云副总裁黄瑾指出,伴随大模型训练与推理对算力需求呈爆炸式增长态势,传统计算架构已渐渐难以满足AI技术代际跃迁的需求。超节点架构的诞生,不仅是一次技术层面的突破,更是以工程化创新为AI产业发展开辟了全新路径。
黄瑾提到,AI算力面临的瓶颈不断演变,从最初单卡算力的局限,到单机内总线带宽的制约,再到如今集群间通信带宽的瓶颈。算力需求在不断增长,已达到过去的1万倍。然而,在过去8年里,单卡硬件的算力增长了40倍,节点内的总线带宽仅增长了9倍,跨节点的网络带宽只增长了4倍。这使得集群网络通信成为当下大模型训练和推理面临的最大挑战。
黄瑾介绍说,华为云推出的CloudMatrix 384超节点,勇敢直面通信效率瓶颈、内存墙制约、可靠性短板这三大技术难题。它借助新型高速互联总线,让384张卡实现互联,形成一个超级云服务器,最高可提供300Pflops的算力规模。相比英伟达NVL72 180Pflops的算力规模,提升了67%。
同时,华为云CloudMatrix 384超节点拥有MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用这六大技术优势。
在CloudMatrix 384超节点的分布式推理平台助力下,通过高速互联总线,能够达成一卡一专家的高效分布式推理,单卡的MoE计算和通信效率得到大幅提升。MatrixLink服务具备两层网络,即超节点内部的ScaleUp总线网络和跨超节点间的ScaleOut网络,可让超节点内384张卡实现高速互联,时延低至微秒级别。
此外,华为云首创的EMS弹性内存存储,运用内存池化技术,实现了显存和算力的解绑,能够大幅提高资源利用率、性能和吞吐量。例如,用EMS替代NPU中的显存,可使首Token时延降低,最高降幅可达80%;昇腾云脑运维“1 - 3 - 10”标准还将硬件故障感知率从40%提升至90%。