开云体育
告别英伟达?华为昇腾NPU跑出准万亿参数大模型媲美De开云体育官方epSeek R1
开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!近日,华为盘古团队(包含诺亚方舟实验室、华为云等)在arxiv网站上,发布了一份在昇腾 NPU上高效训练大型稀疏混合专家模型(MoE)的技术报告。
报告显示,盘古研究团队在6000+块昇腾NPU集群上,完成了7180亿(718B)参数的Pangu Ultra MoE(混合专家模型)长期稳定训练。
通过针对昇腾NPU的系统优化与模型架构设计,显著提升了训练效率,这使得Pangu Ultra MoE的最终性能表现与DeepSeek R1相当。
比如,Pangu Ultra MoE在通用理解任务中,CLUEWSC 得分94.8、MMLU得分91.5,同时还具备出色的代码与数学解题能力。在数学推理与代码生成等高难度测试中,其AIME2024得分81.3、MBPP+得分 81.2。不过,Pangu Ultra MoE模型并不是这份报告的主角,而是盘古研究团队如何应对训练超大参数MoE模型背后的困难。根据这份技术报告,要想在 Ascend NPU 平台上训练盘古Ultra MoE模型,需要攻克以下四大关卡:1、架构迷宫:需要在众多参数组合中探索最优配置,设计适配昇腾NPU的大规模MoE架构,实现计算资源的高效利用。2、负载雪崩:路由机制需要智能分配任务,避免专家资源分配不均,如果不同计算单元忙闲不均,会因“木桶效应”降低训练效率,甚至芯片过热熔毁。3、通信瓶颈:在近万亿参数规模下,数据在集群间传输堪比春运,token在不同计算节点间的专家流转会产生巨大通信开销。4、硬件适配:算法与芯片像齿轮卡齿,算力潜能只能发挥10%。实现MoE算法与昇腾NPU等专用AI加速器的深度协同,需要打通算法设计、软件框架和硬件特性的全栈优化,充分释放硬件计算潜力。通过增大模型里的隐藏层参数、降低激活参数量,实现“高算力低能耗”,让NPU每秒处理更多数据。在多维并行亲和方面,采用数量为2的指数级的专家数量,达成了TP8×EP4超融合并行的方式。在 DaVinci 架构亲和方面,将张量按照256进行对齐处理,使其能完美匹配16×16矩阵计算单元,充分释放昇腾NPU的算力。其次,为了应对负载平衡,团队研发了一种全新的EP组均衡算法,能在每微秒扫描500万token的路由请求。该算法与传统方案相比,它不会过度强求局部任务分配的绝对均衡,避免了“矫枉过正”,同时节省了30%通信成本,在200亿参数模型上验证效果显著。
同时,团队提出了层次化All-to-All通信策略,将节点内与节点间通信分开优化,有效提升带宽利用率。再通过自适应流水线重叠技术,通信与计算操作实现高效并行,减少同步等待时间。在内存管理方面,面对7180亿参数及中间激活值的巨大内存需求,团队通过细粒度重计算,仅对特定算子重新计算中间激活值,而非整个层,降低内存占用。此外,张量交换技术将部分激活值临时卸载至主机内存,并在反向计算时预取,显著缓解NPU内存压力。具体而言,团队从改进并行计算策略、优化数据传输效率、提升显存使用效果,以及让任务分配更均匀四个方向对盘古Ultra MoE 模型进行了全面优化。这一套组合拳下来,Pangu Ultra MoE在6000余块昇腾NPU集群上实现了30.0%的模型算力利用率(MFU)与每秒146万token的处理速度(TPS),相较基线万)提升显著。MFU指标反映了大模型在训练过程中硬件计算单元被有效利用的程度。公开的数据显示,基于英伟达卡训练MoE模型,MFU 通常在 35% 到 55% 的范围内。考虑到昇腾NPU的软硬件的成熟度,MFU达到30%也已经很不错了。随着获取国外算力越来越困难,转向国产算力来训练大模型已经成为了一个重要的发展趋势。这一成果不仅验证了昇腾NPU在支持前沿AI模型训练中的能力,也为中国AI自主创新树立了新的标杆。往期文章回顾
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
韩国专家建议政府:将老年人年退休门槛从65岁提高到70岁!年轻人多缴钱少领钱,养老金2055年耗尽可延后9年
四人20+掘金OT击退雷霆2-1 约基奇三分10中0SGA18+13+7
约基奇20+16+6统治加时:丢绝杀三分10中0+8失误 决战爆发救主
米切尔43+9+5骑士大胜步行者1-2,斯特鲁斯20+7+7哈利仅4分
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律