MoE推理:跳过88%专家,保住97%性能

2026-03-05 22:25:35 · chineseheadlinenews.com · 来源: 新智元

CVPR新研究MoDES让多模态大模型推理效率飙升:无需训练,智能跳过88%冗余专家,仍保留97%性能,彻底打破“跳得多必掉点”旧认知,推理速度提升2倍。

多模态大模型正在迅速走向大规模。为了处理更高分辨率图像、更长视频序列以及更复杂跨模态任务,模型参数规模持续增长。

Mixture-of-Experts(MoE)架构成为主流选择:通过只激活部分专家网络,试图在保持模型规模的同时降低计算开销。

但问题在于——即便采用 MoE,多模态模型的推理成本依然很高。

每个token仍需与多个专家交互,大量计算发生在“并非真正关键”的专家上。MoE 的确避免了“全参数全激活”,却没有真正做到“按需计算”。

在视频理解或长上下文场景下,这种冗余会被迅速放大,成为推理瓶颈。

于是,一个自然问题出现:能否在推理阶段动态跳过冗余专家?

已有expert skipping方法在纯文本LLM上取得了一定效果,但一旦直接应用于多模态模型,往往出现明显性能下降。跳得越多,掉点越严重,高比例skipping下甚至直接崩溃。

来自香港科技大学、北航、北大等单位的研究团队提出了MoDES(Multimodal Dynamic Expert Skipping),系统分析了多模态MoE skipping失效的根本原因,并给出了一套面向多模态MoE的training-free动态专家跳过框架,该工作已被CVPR接收。

论文地址:https://arxiv.org/pdf/2511.15690

代码地址:https://github.com/ModelTC/MoDES

在Qwen3-VL-MoE-30B上,MoDES在跳过88%专家的情况下,仍保留97.33%原始性能,同时带来显著推理加速,打破了一个长期存在的共识:高比例专家跳过必然带来不可接受的性能损失。

图表1 不同skipping比例下MoDES与现有方法在13个基准上的性能对比

MoDES并没有直接提出新规则,而是首先回答一个更基础的问题:为什么为文本模型设计的skipping方法,在多模态MoE上会明显失效?

论文给出了两个关键观察。

不同层专家对最终输出的全局贡献高度不均衡:

现有skipping方法通常仅依据当前层的routing概率判断专家是否重要,但忽略了一个关键事实:不同层专家对最终预测分布的影响差异巨大。

实验表明,当减少routed experts数量时,浅层专家的减少会导致更显著的性能下降,而深层专家的影响相对较小。这意味着浅层误差会在后续层逐步放大,从而引发性能崩溃。

换言之,专家的重要性不仅是“局部routing概率”的问题,更是“对最终输出影响程度”的问题。如果采用层无关的统一规则,很容易在关键浅层跳得过多。相关现象如图表2所示。

图表2 不同层范围减少专家后的性能变化

文本token与视觉token行为存在显著差异:

论文进一步分析了模态差异。通过对FFN前后token表征的可视化与统计分析,研究者发现:文本token在FFN中的更新幅度明显更大;视觉token与专家权重更接近正交;专家对视觉token的影响相对较小。

这意味着,专家对文本推理更关键,而对视觉token存在更高冗余。如果skipping策略不区分模态,很可能误删对文本理解至关重要的专家,导致性能下降。相关分析见图表3。

图表3 文本与视觉token在FFN中的差异分析

这两个观察共同指向一个核心结论:多模态MoE的专家重要性,需要同时具备output-aware(输出感知) 与modality-aware(模态感知)。

输出感知+模态感知

动态skipping框架

基于上述insight,MoDES构建了一个输出感知、模态感知的动态专家跳过机制,其整体流程如图表4所示。

图表 4 MoDES框架图

图表5 校准与搜索时间对比

实验结果

在主实验中,QVGen在W4A4/W3A3在大规模实验中,MoDES在多个主流多模态MoE模型上进行了系统评估。

在Kimi-VL-A3B-Instruct上,当跳过83%专家时,多数现有expert skipping方法平均性能下降超过11%,而MoDES仍然保留96.25%原始性能(见图表 6)。这一结果说明,高比例skipping并不必然导致性能崩溃,只要专家的重要性建模足够准确,冗余专家可以被有效识别。

在更大规模的Qwen3-VL-MoE-30B-A3B-Instruct上,MoDES的优势更加明显。在跳过88%专家的条件下,MC-MoE仅保留86.66%性能,DiEP保留85.30%,而MoDES仍然能够保留97.33%原始性能(见图表 7)。在13个图像与视频理解基准上,MoDES均取得最优或接近最优表现。

图表6 Kimi-VL不同skipping比例性能对比

图表7 跨backbone性能对比

这一结果表明,高比例skipping并非不可行,关键在于是否能够正确建模专家对最终输出的全局贡献以及不同模态token的行为差异。

推理效率与量化兼容性

在实际推理测试中,MoDES在H200 GPU上实现了显著加速。在Prefill阶段获得约2×加速,在Decoding阶段仍有约1.2×提升(见图表 8)。由于MoDES为training-free方法,推理阶段不引入额外计算开销,因此加速效果更加稳定。

此外,MoDES与混合精度量化具有良好兼容性。在低比特量化条件下仍能保持较高性能,说明skipping与量化可以从结构与数值两个层面形成互补,共同降低多模态MoE的计算成本。

图表8 推理速度对比。(上)Qwen3-VL;(下)Kimi-VL。

总结

MoDES的核心贡献在于:提出了一种真正output-aware、modality-aware的多模态专家跳过机制。

通过显式建模不同层专家对最终输出分布的全局贡献,以及不同模态token在专家网络中的更新特性,MoDES证明了一件重要的事情:即便跳过80%以上的专家,只要跳得足够“聪明”,模型性能依然可以稳定保持。

在多模态模型规模持续扩大的背景下,这种基于输出影响建模的skipping思路,为大模型推理效率优化提供了一条更加稳健且可落地的路径。


    24小时新闻排行榜更多>>
  1. 美官员闭门会议承认:伊朗无人机比预想更难对付
  2. 提取到期定存竟要报备公安 北京女子气得上网告状
  3. 川普:将参与伊朗新领袖遴选 不接受哈梅内伊之子接班
  4. 哈梅内伊之子财富引关注
  5. 伊朗通讯几乎瘫痪
  6. 英特尔涉嫌用中资晶片设备 美跨党派议员质疑
  7. 美击沉30多艘船舰 称伊朗弹道导弹攻击“大减9成”
  8. 李强报告承认经济失衡 专家析下滑趋势难逆转
  9. 美求乌协防“无人机” 泽伦斯基:拿“爱国者”来换
  10. 川习会前博弈升级:华盛顿施压北京转买美国能源
  11. 伊朗:在波斯湾击中美国油轮
  12. 美基地差2分钟就完蛋!伊轰炸机闯卡达与F-15缠斗…
  13. 防空逻辑大变 美国正评估采购乌克兰无人机拦截器
  14. 伊朗只让中国船通过霍尔木兹海峡 为拖北京下水?
  15. 中国半导体大佬集体发文 举全国之力造自己的阿斯麦
  16. 过去一周,台湾空域中国军机罕见“清零” 前所未有
  17. 山东济宁发生大爆炸 火球浓烟直飞天空如战区
  18. 伊朗:发射“霍拉姆沙赫尔-4”重型导弹
  19. 伊朗无人机太多拦不完!传美国找乌克兰支援
  20. 强硬执法闹人命惹众怒 美国土安全部长遭撤换
  21. 劳合社与DFC沟通,护航波斯湾贸易险
  22. 美国宣布与委内瑞拉恢复外交关系
  23. 伊朗边境爆发战斗,武装分子遭重创
  24. 印度空军确认:苏-30战机已坠毁
  25. 蒋介石败部复活 卢比奥亮剑 中南海瑟瑟发抖
  26. 36名军队全国人大代表被罢免 含16上将14中将
  27. 中共两会前夕 北京“访民村”数百人遭遣返
  28. 成本高政策缺,人大代表支招破局
  29. 中共“两会”气氛紧张 与会者躲避记者
  30. 伊朗外长:没理由跟美国谈判
  31. 中国27省电价下跌 企业电费为何不降?
  32. 士嘉堡谷仓大火,消防奋力扑救
  33. 伊朗“无人机大军”视频曝 气氛肃杀 呛“地狱之门已开”
  34. 美军使用印度港口打击伊朗?
  35. 美伊冲突,致亚洲燃料供应紧张
  36. 分析:加州州长初选 2名共和党人很难都赢
  37. 美国土安全部长被解职“真正原因”曝
  38. 男性何时开始老了?4症状一个没有恭喜你年轻
  39. 不再黏玩偶猩猩了!日本小猴子交到朋友了
  40. 第二艘伊朗军舰闯海域急求救 斯里兰卡陷两难
  41. 分析:中东战火外溢 牵动中国经济民生
  42. 2名日本人被伊朗拘留
  43. “丁是丁 卯是卯”到底指什么?
  44. 在日留学生亲述遭遇“撞人族”:他们专挑玩手机的人
  45. 现货黄金短线下挫70美元
  46. 比亚迪王传福:到年底建成20000座闪充站
  47. 功耗狂降95%:CPO技术会是解决方案吗?
  48. 海格塞斯:伊朗袭击促中东国家向美靠拢
  49. 小甜甜布兰妮又出事 遭加州警察“上铐押走”
  50. BBC曝卫星影像:空袭重创伊朗海军 导弹设施与核基地
  51. 中共限制战略物资出口 被曝趋近战时管制
  52. 伊朗:用“卡德尔-380”等导弹击中美驱逐舰
  53. 因曝光他人隐私信息,李雨桐被禁言
  54. 从空袭到地面战:库尔德人联手美国向伊朗开战
  55. 伊朗孤独应战
  56. 4599起就能买一台Mac,苹果开打“价格战”
  57. 古巴频繁发生大面积停电,美国制裁加剧能源困境
  58. 复仇的决心:伊朗“非对称作战”搅动中东
  59. 密谋刺杀川普 伊朗间谍纽约法庭坦白
  60. 三名副国级官员再次缺席政协会议 她“反常”露脸