MoE那么大,几段代码就能稳稳推理

2025-07-02 22:25:44 · chineseheadlinenews.com · 来源: 量子位

混合专家网络模型架构(MoE)已经成为当前大模型的一个主流架构选择,以最近开源的盘古Pro MoE为例,其基于MoGE架构构建的混合专家架构,总参数量达720亿,激活参数量为160亿,专门针对昇腾硬件优化,在性能与效率上表现突出。

盘古还实现了在推理时做到又快又稳。

在技术特性上,盘古模型引入 “快思考” 和 “慢思考” 双系统,可根狙淌题复杂度自动切换响应模式,并在推理性能上实现突破——在昇腾800I A2上单卡推理吞吐性能达1148 tokens/s,经投机加速技术可提升至1528 tokens/s,显著优于同等规模稠密模型。

那么让盘古、DeepSeek、Qwen这些开源的MoE模型在昇腾硬件上推理,能够达到易维护、高性能,并且全面开源的技术项目有没有呢?

现在,这个问题似乎有了标准答案——

华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了!

这个新开源项目名叫Omni-Infer,整体来看,它对于企业用户来说是非常利好的。

例如它可以给企业提供PD分离部署方案,针对QPM进行系统级优化,还会分享大规模商用过程中硬件使用的“方法论”。

而且对于开发者和开源社区,华为这“一呼”也是起到了“百应”的效果。

GitHub地址:https://github.com/FlagOpen/FlagScale/pull/630

北京智源研究院副院长兼总工程师林咏华表示:

北京智源研究院一直以来致力于人工智能开源生态建设,很高兴看到Omni-infer项目开源,智源团队打造的面向多芯片的FlagScale框架也在第一时间接入了Omni-infer,期待后续有更多生态合作。

上海人工智能实验室系统平台中心负责人王辉认为:

DeepLink致力于打造最开放兼容的人工智能计算体系,十分期待能与Omni-infer项目携手,繁荣自主软硬件协同开源社区、拓展生态版图。

以及OpenI启智社区运营中心主任余跃也给出了响应:

OpenI启智社区坚持创新为本,面向未来与Omni-Infer项目一起打造基于算力网的开源共创协作生态。

据了解,华为Omni-Infer社区的定位是 “加速套件+最佳实践”,未来提供开箱即用能力,支持昇腾推理集群快速部署。

而对于这次Omni-Infer的开源,其实是华为兑现了一个月前在发布重磅技术报告之际所做出的承诺。

那么接下来,我们就来一同深入了解一下华为的Omni-Infer。

一个框架和一个套件

从整体来看,Omni-Infer可以拆成两大块来看:一个是推理框架,一个是推理加速套件。

从框架角度来看,Omni-Infer能和业界主流的开源大模型推理框架(如vLLM)完美兼容,就像不同品牌的零件可以组装在同一台机器上。

并且据了解,它的功能还将不断扩展,会持续为昇腾硬件平台上的大模型推理提供更强大的支持(例如SGLang等主流开源LLM推理框架)。

值得一提的是,Omni-Infer是与vLLM/SGLang等等这些主流大模型推理开源框架是解耦的,独立安装。

这就意味着用户只需维护vLLM等的主版本即可,大大降低了软件版本维护的成本。

至于Omni-Infer的加速套件,若是用较为形象的比喻,它的“打开方式”是这样的:

企业级的 “调度员”:它有一套智能的调度系统,就像交通警察指挥车辆一样,能合理安排任务(xPyD调度)。而且支持大规模分布式部署,就像多个交通岗亭协同工作,不管任务量多大,都能保证最低的延迟,让响应更及时。

精准的 “负载平衡器”:对于不同长度的任务序列,它在预填充和解码这两个关键阶段都做了优化。比如,就像快递分拣中心针对不同大小的包裹采用不同的分拣策略,让整个处理过程的吞吐量达到最大,同时还能保持低延迟。

MoE模型的 “专属搭档”:它对混合专家(MoE)模型特别友好,支持EP144/EP288等多种配置。可以想象成一个大型的 “专家团队”,每个专家负责不同的任务,它能让这些专家高效协作。

智能的 “资源分配者”:具备分层非均匀冗余和近实时动态专家放置功能。就像在一个大型工厂里,根据实时的生产需求,动态调整各个生产线的工人分配,让资源得到最充分的利用。

注意力机制的 “强化器”:专门为LLM、MLLM和MoE等模型优化了注意力机制。这就好比给模型的 “注意力” 装上了 “放大镜”,让它在处理信息时更聚焦、更高效,提升了模型的性能和可扩展性。

如何“食用”?

在聊完Omni-Infer的特点之后,我们继续来看下该如何去体验。

首先对于它的使用环境是有一定的要求:

硬件:目前仅支持CloudMatrix384推理卡

操作系统:Linux Python: >=3.9,

其次在安装方式上,目前仅支持通过Docker镜像方式进行安装:

docker pull swr.cn-southwest-2.myhuaweicloud.com/omni-ai/omniinfer:202506272026

这个镜像已预先集成所需的CANN及Torch-NPU依赖包,同时内置可直接运行的Omni-Infer与vLLM工具包,开箱即可使用。

可以使用下面这个命令检查是否可用:

pip list | grep omni_infer

以PD分离自动化部署(4机2P1D)为例,它的部署框架如下所示:

再接下来,只需文档教程,仅少量代码和步骤,即可完成安装和部署:

整体来看,此次华为面向超大规模MoE开源的项目,是做到了简单几步就可以让AI推理这事变得又快又稳。

极致开源

Omni-Infer除了将此前《华为昇腾服务器 DeepSeek V3/R1 推理部署最佳实践》技术报告中的关键技术开源出来之外,也同步进行了更加专业的开源社区建设。

首先,在独立的社区仓库中,将社区治理、社区会议、社区活动、生态合作、代码规范、设计文档等社区信息全部开放出来,让开发者能够最直接深入的参与到社区发展中。

其次,参照业界主流大型开源社区的最佳实践,采用开放的社区治理机制,通过项目管理委员会(Project Management Committee)和特别兴趣小组(Special Interest Group)两级机制,提供公正透明的讨论与决策机制。

再次,针对业界同类开源项目大多存在的“一头热”的“被动适配”生态合作模式问题,Omni-Infer社区则采取了“主动适配”的社区构筑路径,尤其是主动拥抱国内正在逐步成长的人工智能开源项目,让生态真正实现多方共赢。

作为长期与业界几大主流开源基金会(Linux基金会、OpenInfra基金会、Apache基金会等)保持紧密合作关系的社区团队,Omni-infer刚开源的首个活动就将参与OpenInfra基金会在苏州的Meetup,感兴趣的同学可以到现场交流,也顺路可参加有特色的全球性开源社区的生日活动。


    24小时新闻排行榜更多>>
  1. 地震消息令人震惊 传中国科学院院士微信泄露
  2. 《人日》刊文纪念李克强冥诞 《求是》删文
  3. 网传李克强女儿的信 直呼习近平暴君
  4. “把老婆还给我”天津男子派出所跪求“霸妻”所长
  5. 李克强70岁冥诞 《人民日报》刊长文纪念、肯定
  6. 众院通过程序性投票 将最终表决大而美法案
  7. 美国6州43处海滩紧急关闭 致命细菌威胁数千万游客
  8. 专家警告:美国逼小柄硬吞20%重税,仍难挡中国洗产地
  9. 没喝过奶+天天冰火浴,婴儿瘫痪失明
  10. 美国疯抢,铜价逼近年内新高
  11. 遥祝薄熙来生日快乐 薄毕瓜发文:最伟大的父亲
  12. 张国焘提名9人进中央政治局,毛主席拒绝
  13. 河南省郑州市中级人民法院,和它的一费剔耻的判决
  14. 美媒惊曝:中共真正野心不在台湾 而是西伯利亚
  15. 吹牛老爹躲过重罪指控,子女欢呼“胜利”
  16. 习“全面主席”成笑话 专家讽其治国荒腔走板
  17. 日本建设新型海底监测网
  18. 南航机长刺伤主管跳楼身亡 事件冲热搜榜首网络炸锅
  19. 川普准备发表演讲,拉开为期一年的美250年庆序幕
  20. 华女粮食券每月1号就被盗光 锁卡也无效
  21. 美中关系走向:加速脱钩还是趋于改善?
  22. “大而美法案”众院219票闯关
  23. 7.20反迫害26周年 新世纪推出长片《传递》
  24. 别把飞行员搞得那么神秘敏感,旅客安全才更有保障
  25. $1500亿资金注入 "美丽大法案"或将颠覆移民执法
  26. 缓解住房危机 纽森签法案全面改革加州环保法
  27. 从小粉红到反共斗士:农家子弟觉醒之路
  28. 新疆书记换人 袁红冰:与中东局势变动有关
  29. "大而美法案"众院219票闯关!5共和党人一度倒戈
  30. 朝鲜将派遣额外3万名士兵,前往俄乌战争前线协助莫斯科
  31. 王毅访欧既要又要,鱼和熊掌能否兼得
  32. 美国最贵的,是中国AI人才:中国学霸正“统治”AI圈
  33. 6月非农报告或延长美联储观望期
  34. “大而美法案”终过关,将送交川普签字
  35. 日媒:习权力正受打击 国安系首当其冲
  36. 传美国解除对中国乙烷出口管制,路透:美中贸易休战
  37. 争夺未来能源主导权之战:中国正在领先
  38. 华为盘古大模型首次开源
  39. 人民日报纪念李克强冥诞发出了什么信号
  40. 吹牛老爹判了 震动欧美圈 最重罪行全躲了 刑期仅…
  41. 曝歼20缠斗F35 央视强调“牺牲准备”令小粉红洩气
  42. 女性就业难 国企是挤兑“妈妈岗”的重灾区
  43. 楼市危机全面爆发 上海房价血亏 杭州跌回2015年
  44. 已入籍也不保险!川普动手 这10类人恐失去美籍!
  45. 纽约市府将设五座创新公厕
  46. 1.2万磅蓝莓全美最高等级召回 不只拉肚子还可致命
  47. 达·芬奇“维特鲁威人”隐藏几何密码被揭开
  48. 歼-20的雷达探测距离达到1000公里?
  49. 专家:中共治国荒腔走板 政权衰败征兆
  50. 李在明:韩朝不应互相敌对
  51. Black Forest开源新模型:文本P图党福音
  52. 仅10名员工却租四千平办公,实探这些“诡异”的公司
  53. 王毅:稀土不会成为中欧之间的问题
  54. 【名家专栏】遏制行政国家 维护总统权力
  55. 海豚蛋蛋尺寸惊人:全因它们是滥交高手
  56. 川普政府施压 墨西哥拒绝比亚迪建厂
  57. 台盟前副主席李钺锋被判无期
  58. 姐姐讲述模特弟弟被骗缅甸细节
  59. 房产大王被清华学霸儿子手撕 曾挪用国企5千万入狱
  60. 美越达成贸易协议,对亚洲市场意味着什么?