华为盘古大模型首次开源

2025-07-02 22:25:16 · chineseheadlinenews.com · 来源: 量子位

华为盘古大模型,首次开源!模型名为盘古Pro MoE,参数量72B,其中激活参数量为16B,中英文理解和推理能力都不输给32B密集模型。

而且盘古Pro MoE还提出了全新的MoE架构,专门针对昇腾芯片做了适配,在昇腾800I A2上实现了单卡1148 tokens每秒的推理吞吐性能。

中英两个版本的技术报告均已发布,相关话题在微博上成了讨论热点。

并且原本发布在国内平台的模型权重,也迅速被第三方搬运到了Hugging Face。

那么,盘古Pro MoE的具体表现究竟怎样呢?

性能不输32B密集模型

盘古Pro MoE的总参数量为72B,包含64个路由专家和4个共享专家,激活参数量16B,占总参数量的22.2%。

但在中文、英文、数学、代码等一系列测试中,盘古Pro MoE都能和32B的密集模型杀得有来有回。

英文方面,盘古Pro MoE在MMLU-PRO上以82.6分的成绩超越了Qwen3-32B、Gemma3-27B等密集模型,以及同样采用MoE架构的Llama4-Scout 。

以及在阅读理解领域,盘古Pro MoE在DROP测试中获得了91.2分,与当前最优的Qwen3-32B(91.3)基本持平。

中文方面,盘古Pro MoE在知识密集型评测 C-Eval(EM)中以91.1的成绩超越 Qwen3-32B(89.2)等现有百亿参数量级最优模型。

针对中文常识推理任务,盘古Pro MoE在CLUEWSC(EM)基准上取得了94.7分,略胜于Qwen3-32B并明显领先于 Gemma3-27B(91.3)。

此外,盘古Pro MoE还展现出了优异的逻辑推理能力。

例如在代码生成方面, 其在MBPP+(Pass@1)的成绩达到80.2,与 Qwen3-32B(82.0)处于同一性能区间;

数学推理任务中,盘古Pro MoE也以96.8分的成绩在MATH-500测试中超越Qwen3-32B(96.6),前者的CNMO2024基准Pass@1指标70.8同样略胜于后者(70.4)。

特别地,在SuperGPQA等复杂问题解答基准中,盘古Pro MoE取得了54.8分的Pass@1得分,显著优于Qwen3-32B(49.8)等密集模型。并且在W8A8(权重和激活值均为8bit)量化配置下,盘古Pro MoE的精度几乎没有损失,即便使用W4A8(权重4bit激活值8bit)量化,精度损失仍在可接受范围内。

此外,盘古Pro MoE还展现出来非常高的推理效率。

例如在采用双卡部署策略的昇腾800I A2上,盘古Pro MoE经过W8A8量化配置后, Prefill阶段2K序列长度输入场景下,模型的平均单卡输入吞吐可达每秒4828tokens,相比72B和32B密集模型分别提升了203%和42%。

Decoder阶段(4卡部署,W8A8量化),在大并发场景下,2K序列输入下平均单卡输出吞吐可达每秒1148token,相较72B和32B密集模型吞吐性能分别高出97%和18%。

而之所以能拥有这样的性能和效率,是因为盘古Pro MoE从模型架构到训推设施,都针对昇腾芯片进行了专门优化。

提出MoE模型新架构,高效适配昇腾集群

盘古Pro MoE采用了独创的分组混合专家模型(Mixture of Grouped Experts,MoGE)架构,主要目的是从路由机制上实现跨设备的计算负载均衡。

MoGE的核心思想,是将所有专家均匀地划分为若干组,每组分配到一个具体的设备上,并在路由过程中强制每个token从各组中选择相同数量的专家进行激活。

传统的MoE通常由多个不同的专家网络组成,在运行过程中会通过softmax计算来进行专家的选择,但其中的Top-K路由机制并未对被选中专家的位置进行约束,导致出现专家过于集中的情况,从而导致负载不均衡。

当某些设备上的专家被频繁激活时,这些设备需处理更多的 token,而其他设备则可能处于空闲或低负载的状态,导致系统整体的推理速度被最慢(最繁忙)设备限制,出现计算资源利用效率下降、整体推理时延显著增加的情况。

为此,MoGE创新性地采用了分组均衡路由策略以实现设备间负载均衡,其核心思想是将每个token的激活专家在所有设备之间进行等量分配。

具体来说,MoGE通过两个策略来实现设备间的负载均衡——

专家分组(Expert Partitioning):将所有的N个专家确定性地划分为M个互不重叠的组,每组专家N/M个专家,同一组专家通常被分配到一个特定的计算设备上;

分组均衡路由(Group-Balanced Routing):对于每个输入,路由机制会从每组专家中固定激活K/M个专家,此时每个token激活的专家总数仍为K,但是每个设备上的被激活专家的数量被严格限定。

另外,盘古Pro MoE还引入了均衡辅助损失,以便确保路由模块能够在每一个组内合理地调节专家的负载。

这样的架构,与昇腾NPU的分布式部署方式,形成了有效协同。

除了模型架构之外,盘古Pro MoE的训推设施也针对昇腾集群做了专门适配。

专为昇腾优化的训推设施

训练层面,盘古大模型团队对盘古Ultra MoE中采用的加速技术进行了进一步的优化。

这些优化包括通信开销更小的分层EP All-to-All通信、自适应流水掩盖机制(Adaptive Pipeline Overlap Mechanism)中更细粒度的算子调度和更高效的掩盖, 以及在内存优化策略中新增的细粒度可配置重计算和swap模块。

这些优化策略不仅提高了盘古Ultra MoE的模型算力利用率(MFU),而且也能够适配到盘古Pro MoE,实现了35%的MFU相对提升。

推理过程中涉及的策略就更多了。

首先是分层混合并行,盘古Pro MoE中总参数的95%为稀疏专家模块,注意力模块仅占5%。基于模型结构与昇腾硬件系统的联合优化,盘古团队提出了一种分层混合并行的分布式推理方案,通过消除冗余的计算和通信开销实现最优计算效率。

基于优化后的分层混合并行策略,盘古大模型团队进一步对相关通信操作展开优化,以最小化计算和通信开销。

在并行与通信优化的基础上,团队还通过相邻通信流与计算流之间的流水掩盖,进一步降低了通信延迟。

第二个方面,是量化压缩,具体可以分为专家感知量化和KV缓存量化。

对MoE模型进行量化会因其稀疏且动态的计算模式而带来特殊的问题,于是盘古团队提出了一种专家感知后训练量化方法。

该方法首先采用专家感知的平滑聚合策略来抑制MoE中各专家的激活离群值,然后利用一种路由输出分布一致性校准策略确保量化后专家选择的一致性,最后再用专家级校准数据均衡策略平衡不同专家间的校准数据。

KV缓存压缩对于优化推理基础架构的效率——尤其是在吞吐量、上下文长度和batch size大小可扩展性方面——至关重要,盘古Pro MoE通过KVTuner算法实现了推理效率与模型精度之间的优化平衡。

最后一个方面,是算子融合。

盘古团队提出了基于昇腾硬件优化的融合注意力算子MulAttention,通过大数据包KV传输策略提升内存带宽利用率,实现了4.5倍的端到端注意力加速,并显著提高了硬件利用率。

另外在高并发场景中,分组矩阵乘法(GMM)算子占端到端延迟的 50% 以上,而动态负载进一步影响了计算效率。为此,盘古团队提出了一种针对昇腾平台优化的GMM加速技术——SwiftGMM。

SwiftGMM引入了一种适用于动态计算负载的分块缓存策略,通过历史性能分析数据预测最优分块参数,从而减少因负载不均衡导致的频繁的重新计算开销。

实验表明,SwiftGMM的MTE2利用率最高可达95%,使算子性能接近权重数据传输带宽限制的理论上限。

当然,盘古大模型的背后还有更多的技术细节,感兴趣的话可以到技术报告中一探究竟~


    24小时新闻排行榜更多>>
  1. 习下台势不可挡?宣传口切割自保 下架习核心、习思想
  2. 地震消息令人震惊 传中国科学院院士微信泄露
  3. 《人日》刊文纪念李克强冥诞 《求是》删文
  4. 网传李克强女儿的信 直呼习近平暴君
  5. 王友群:习近平权力遭遇的又一次重击
  6. 文革“大姐大”晚景凄凉 “天生的政治动物”
  7. “把老婆还给我”天津男子派出所跪求“霸妻”所长
  8. 众院通过程序性投票 将最终表决大而美法案
  9. 专家警告:美国逼小柄硬吞20%重税,仍难挡中国洗产地
  10. 抖音小红书等中制APP资安风险高 国安局揭恐怖状况
  11. 新疆书记马兴瑞突卸任 被免内情和去向引猜测
  12. 美国6州43处海滩紧急关闭 致命细菌威胁数千万游客
  13. 李克强70岁冥诞 《人民日报》刊长文纪念、肯定
  14. 美国疯抢,铜价逼近年内新高
  15. 张国焘提名9人进中央政治局,毛主席拒绝
  16. 河南省郑州市中级人民法院,和它的一费剔耻的判决
  17. 美媒惊曝:中共真正野心不在台湾 而是西伯利亚
  18. 吹牛老爹躲过重罪指控,子女欢呼“胜利”
  19. 没喝过奶+天天冰火浴,婴儿瘫痪失明
  20. 华女粮食券每月1号就被盗光 锁卡也无效
  21. 日本建设新型海底监测网
  22. 川普准备发表演讲,拉开为期一年的美250年庆序幕
  23. 习“全面主席”成笑话 专家讽其治国荒腔走板
  24. 朝鲜将派遣额外3万名士兵,前往俄乌战争前线协助莫斯科
  25. 【翻墙必看】高层人事更迭 习再遭重大打击
  26. 美媒震惊:他残忍杀害4名大学生,却逃过死刑!
  27. 美中关系走向:加速脱钩还是趋于改善?
  28. 别把飞行员搞得那么神秘敏感,旅客安全才更有保障
  29. “大而美法案”众院219票闯关
  30. 美国最贵的,是中国AI人才:中国学霸正“统治”AI圈
  31. 7.20反迫害26周年 新世纪推出长片《传递》
  32. 从小粉红到反共斗士:农家子弟觉醒之路
  33. 南航机长刺伤主管跳楼身亡 事件冲热搜榜首网络炸锅
  34. 争夺未来能源主导权之战:中国正在领先
  35. 中国杂技大妈WNBA表演时坠落!已效力NBA超30年
  36. $1500亿资金注入 "美丽大法案"或将颠覆移民执法
  37. 38岁抗癌网红宣布停掉天价药,决定为自己活一回
  38. 川美爆火毕业作品《祷》买家现身:原来是他!
  39. 萧美琴出席AIT酒会 以“棒球”喻台美关系
  40. 人民日报纪念李克强冥诞发出了什么信号
  41. 吹牛老爹判了 震动欧美圈 最重罪行全躲了 刑期仅…
  42. 6月非农报告或延长美联储观望期
  43. 遥祝薄熙来生日快乐 薄毕瓜发文:最伟大的父亲
  44. 缓解住房危机 纽森签法案全面改革加州环保法
  45. 新疆书记换人 袁红冰:与中东局势变动有关
  46. "大而美法案"众院219票闯关!5共和党人一度倒戈
  47. 传美国解除对中国乙烷出口管制,路透:美中贸易休战
  48. 王毅访欧既要又要,鱼和熊掌能否兼得
  49. 楼市危机全面爆发 上海房价血亏 杭州跌回2015年
  50. 1.2万磅蓝莓全美最高等级召回 不只拉肚子还可致命
  51. 海豚蛋蛋尺寸惊人:全因它们是滥交高手
  52. 华为盘古大模型首次开源
  53. 美6月私企就业人数减3.3万 为两年来首次下降
  54. 网络直播拼业绩 寇乃馨声带水肿致声哑2年
  55. 曝歼20缠斗F35 央视强调“牺牲准备”令小粉红洩气
  56. 达·芬奇“维特鲁威人”隐藏几何密码被揭开
  57. “大而美法案”终过关,将送交川普签字
  58. 日媒:习权力正受打击 国安系首当其冲
  59. 歼-20的雷达探测距离达到1000公里?
  60. 女性就业难 国企是挤兑“妈妈岗”的重灾区