他们让万亿参数RL学会了“省着跑”

2025-12-07 02:25:26 · chineseheadlinenews.com · 来源: 量子位

2025年,AI大模型的竞争焦点正在发生根本性转移。

预训练的边际收益在下降,数据的红利在消退,整个行业都在寻找下一个增长引擎。答案越来越清晰:强化学习(RL)。

DeepSeek V3.2的技术报告里有个细节很值得玩味——RL训练的算力投入已经超过预训练的10%,而且性能曲线还在往上走。OpenAI的o系列、Claude的推理能力、Gemini的多模态表现,背后都站着大规模RL。

强化学习正在从“锦上添花”变成大模型进化的主战场。

但这里有一个卡脖子的问题:在万亿参数模型上跑RL,成本高得离谱。

传统方法需要上千张顶级GPU,训练周期动辄数周,绝大多数团队根本玩不起。这不是技术问题,这是资源垄断——只有少数几家公司能负担得起这种规模的RL训练。

现在,这个局面被打破了。

来自Macaron AI背后的研究团队Mind Lab给出了他们的答案:全球首个在1T参数模型上实现的LoRA高效强化学习训练,GPU消耗直降90%。

这不是工程优化的小胜利,而是训练范式的根本性转变。NVIDIA Megatron-Bridge和Seed verl已官方合并这套技术,代码全部开源。

更硬核的是,这支10人研究团队的成员来自OpenAI、DeepMind、Seed,发表200+篇论文,累计被引用30,000+次。

万亿参数RL训练,为什么这么难?

先说说背景。

最近几个月,万亿参数级的推理模型开始扎堆出现——Kimi-K2、Ring-1T相继登场,在多个推理基准上已经追平甚至超越闭源模型。

但预训练只是起点。看看DeepSeek V3.2就知道了——RL训练的算力投入已经超过预训练的10%,性能曲线还没见顶。强化学习正在从“锦上添花”变成大模型进化的主战场,成为未来一年的兵家必争之地。

要让万亿参数模型真正适配Agent任务,RL不再是可选项:

RL能优化多步推理,而不是只做下一个token的预测

RL能整合来自工具、环境、用户的反馈信号

RL能塑造长程行为,这对Agent系统越来越重要

问题在于成本。

在万亿参数模型上跑全参数RL,对绝大多数团队来说根本不现实——就算你能拿到开源的模型权重,训练开销也能把你劝退。

Mind Lab给出的解法是:用LoRA做参数高效适配,配合专门为万亿参数MoE模型设计的混合并行引擎,把RL的计算量砍到只剩十分之一,同时性能不打折。

在Kimi K2上验证:64张H800,搞定万亿参数RL

Mind Lab直接拿Kimi K2开刀做了验证。

先看模型配置:

基座模型:Kimi K2,万亿参数MoE推理模型

激活参数/总参数:32.6B/1.04T

激活专家/共享专家/总专家:8/1/384

注意力头数:64

再看训练配置:

8个节点×8张NVIDIA H800(共64张GPU)

RL算法:GRPO

适配方式:在dense层和expert层都加LoRA,rank=128

关键结论有三条:

第一,成本大幅下降。

在Kimi K2上跑LoRA RL,GPU消耗只有传统全参数RL的10%左右。

第二,训练稳定收敛。

学习曲线显示,reward和任务成功率随着训练步数平稳提升,没有出现灾难性崩溃。

第三,通用能力保住了。

在hold-out基准上的评测表明,LoRA RL在提升特定任务表现的同时,保留了基座模型的通用能力。

MoE架构的三大拦路虎,怎么绕过去的?

你可能会问:LoRA不是早就有了吗?为什么在万亿参数MoE上跑就这么难?

问题出在MoE的架构特性上。现代万亿参数推理模型基本都是MoE Transformer,几百个专家、大量的all-to-all通信、dense和expert参数混杂在一起。

在这个设定下,简单的数据并行+LoRA方案会被三个问题卡死:

问题一:路由不均衡。

几百个专家的token路由极度不均匀,拖慢吞吐、放大RL更新的方差。

问题二:通信压力爆炸。

LoRA的适配器权重需要频繁跨设备收集,all-gather开销巨大,动不动就OOM。

问题三:并行布局太复杂。

rollout和training要在同一套硬件上紧耦合运行,简单的并行策略根本带不动。

Mind Lab的解法是设计了一套混合协同并行引擎,把tensor、pipeline、expert、sequence四种并行方式统一调度:

Tensor并行:处理同节点内的大矩阵乘法

Pipeline并行:把层分摊到不同节点

Expert并行:分片MoE专家,跨设备路由token

Sequence并行:处理长上下文场景

核心设计思想是:把并行当成可调度的资源,而不是固定的布局。

LoRA的配置也有讲究:

在dense层和expert层都挂适配器,让RL信号能同时影响全局行为和专家行为

用中等的LoRA rank(比如128),平衡表达能力和稳定性

适配器完全分片,尽可能融合进现有kernel,避免额外开销

最终效果:LoRA的参数量和通信量大约是全参数RL的10%,但RL信号的传导路径并没有被阉割。

训练和推理用不同后端?会崩的

还有一个坑:RL训练里,rollout(生成轨迹)和training(更新参数)通常用不同的后端。

推理端可能跑在一个独立的、为serving优化的引擎上;训练端可能跑在一个重型的、需要频繁同步的分片后端上。

这就导致了分布不匹配——生成轨迹的策略和更新参数的策略不是同一个东西。

在万亿参数规模下,这个问题会被急剧放大:

logits的微小差异会导致采样轨迹的巨大偏差

朴素的重要性采样比率可能爆炸,让训练彻底失稳

Mind Lab的解法是引入了截断重要性采样比率(truncated importance ratio),显式修正这种不匹配,同时不引入不可接受的方差。具体的数学公式涉及vllm和megatron两个后端的策略比值,通过截断操作把梯度权重控制在合理范围内。

整套方案已经集成到开源训练栈里:verl负责RL训练循环、rollout编排和reward聚合;Megatron-Bridge把verl接入Megatron风格的MoE后端,统一暴露四种并行方式。

代码已合并至NVIDIA Megatron-Bridge和Volcengine verl。

大模型LoRA RL vs 小模型全参数RL:谁更划算?

一个自然的问题是:为什么非要在超大模型上做LoRA RL,而不是直接用小模型跑全量RL呢?

Mind Lab做了一组对照实验,在Math数据集上训练三个策略:

三个模型只在Math上训练,然后同时在AIME 2025(域内)和GPQA(域外)上评测。

为了公平比较,团队控制了:

总RL FLOPs(tokens × 参数 × 更新次数)

环境交互次数

奖励模型和RL流程

为了剔除大模型起点更高的优势,团队用了一个“headroom-normalized”的指标:相对于起点分数到满分之间的提升比例。

结论相当清晰:

32B模型+rank=8的LoRA,在相同RL计算预算下,headroom-normalized增益最大。

而且在域外任务GPQA上,32B+LoRA的迁移效果也是最好的——更强的先验带来了更好的泛化。

简单说:“大先验+小LoRA”比“小模型全参数RL”更划算。

背后的逻辑是:RL本质上是先验受限的(prior-limited)。如果基座模型本身生成不出高质量轨迹,RL就没有什么有用的信号可以放大。大模型已经编码了丰富的推理、工具使用和人类交互模式,RL可以在这些基础上精修,而不是从头造轮子。

Memory Diffusion:像人类一样“智慧地遗忘”

除了RL训练框架,Mind Lab还搞了一套全新的记忆机制——Memory Diffusion。

传统的Agent记忆方案有两类:

第一类是推理式记忆。每轮对话后,模型主动总结记忆片段。问题是反复总结计算开销大,而且关键细节容易在多轮迭代中丢失。

第二类是工具式记忆。把记忆存在外部数据库里,需要时检索回来插入上下文。问题是检索和重整合的过程容易丢失微妙的语境。

Mind Lab的思路完全不同:把轨迹本身当作记忆,通过反复的“遮蔽-分配-重填”操作来动态压缩。

三步走:

Mask:从轨迹中选一块,确定性地遮掉

Allocate:根据重要性给这块分配token预算——重要的多给,不重要的少给或直接扔掉

Refill:在预算约束下重新生成这块内容,得到压缩但语义完整的表示

这个设计的灵感来自人类的遗忘机制。

人脑每时每刻都在高速丢弃无关信息——开车上班时,你会瞬间忘掉路过的广告牌,只记住目的地和路线。Memory Diffusion让AI也学会了这种“智慧地遗忘”:不追求记住一切,而是只保留真正有意义的经验。

关键是,这套方法的时间复杂度是O(1),不改变模型架构,严格遵守上下文预算。

在Locomo基准测试上,Memory Diffusion达到了93%的准确率,刷新了SOTA。

Andrej Karpathy说过一句话:

“Human thought naively feels a bit more like autoregression but it’s hard to say that there aren’t more diffusion-like components in some latent space of thought.”

Mind Lab正在把这个直觉变成工程现实——用扩散语言模型来做记忆更新本身,让“智慧遗忘”成为模型原生的能力。

Research-Product Co-Design:产品就是最好的RL环境

Mind Lab还提出了一个核心理念:研产共设(Research-Product Co-Design)。

为什么?因为真实产品能提供合成环境给不了的东西:

偏好会随时间变化的真实用户

嵌入真实约束的任务

超越“对错”的长程反馈信号

产品本质上就是天然的RL环境。它持续生成接地的reward信号——编辑、使用模式、任务完成率、留存率,甚至用户的流失,都在告诉你系统到底有没有在帮忙。

Mind Lab在前端代码生成任务上做过一个实验:用产品级的人类反馈训练为什么非要在超大模型上做LoRA RL,而不是直接用小模型跑全量RL呢?,然后用它来优化策略。

结果显示:

用真实人类反馈训练的GenRM,显著优于只经过预训练的模型

用GenRM做RL,显著优于SFT

而且,静态环境下的reward model容易被“hack”——模型找到满足proxy但违背真实意图的病态策略后,没有自动纠错机制。

但在真实产品里,偏好数据是源源不断的。用户会交互、会反对、会覆盖系统的输出。这种持续的反馈流让reward model能不断更新,不容易过拟合到退化策略上,行为也更贴近真实的用户价值。

技术落地:Macaron AI速度飙升10倍

底层技术的突破不是停留在论文里的数字。

基于这次模型升级,Macaron AI的Mini-app生成速度从20分钟直接干到2分钟,提升10倍。同时上线了群聊协作和Daily Spark等新功能。

这就是“研产共设”的真实成果——更高效的模型训练,带来更快的推理速度,最终转化为用户可感知的体验升级。

One More Thing

在最新的访谈中,Ilya表示:我们正在结束一个以“算力规模化”(Scaling)为核心的时代,重新回到一个以“基础研究”(Research)为驱动的时代。

Ilya Sutskever说了一句让整个行业都在琢磨的话:

Pre-training as we know it will end. What comes next is superintelligence: agentic, reasons, understands and is self aware.

预训练时代正在走向终结。那么,下一个时代是什么?

Mind Lab的答案是:经验智能(Experiential Intelligence)时代。

这可能是全球第一个专门为“后预训练时代”而生的研究实验室。

他们的核心命题只有一个:

智能如何在真实世界中成长?

他们的核心主张是:预训练时代构建了“大脑”,但下一个时代属于“心智”。大脑记住了互联网上的海量知识,但在面对真实世界的复杂性时依然捉襟见肘。心智不只是存储的知识——它是能通过交互不断更新的世界模型、能从反馈中学习的内部机制、能动态感知任务的记忆系统。

简单说:大脑负责记忆,心智负责在世界中活着。

而这次万亿参数LoRA-RL的突破,正是他们为这个新时代打下的第一块基石——当RL训练的门槛被砍掉90%,更多团队就能进入这个赛道,整个行业的进化速度都会加快。

团队阵容相当硬核:

10人核心研究团队,成员来自OpenAI、DeepMind、Seed

学术背景横跨清华、MIT、Cornell

创始人Andrew现任清华深圳研究院Research Director

团队合作始于10年前,发表200+篇论文,被引30,000+次

Slogan也很有意思:

Real intelligence learns from real experience.

真正的智能源于真实的体验。

他们研究的三个方向:

1. 基础设施:打通产品到Agent的闭环,更快更便宜的训练方案

2. 超越预训练:持续学习、记忆机制、推理与反思

3. 开放与可复现:可被复现的重要实验,寻找下一个scaling law

Mind Lab的差异化在于:他们不是产品公司,不会永远追着最新最强的模型跑;他们以研究智能为目标,不断提高模型学习的效率。也许当前模型不是最好的产品选择,但好算法的斜率更大,长期会成为那个更好的选择。

用他们自己的话说:

From training to becoming, from static intelligence to living intelligence.

从训练到成为,从静态智能到活的智能。


    24小时新闻排行榜更多>>
  1. 国乒击败日本队,蝉联冠军
  2. 俄副总理:俄罗斯已准备好迎接无限数量的印度技术工人
  3. 7人奇特合照 其中5人都和江泽民结下梁子
  4. 改造白宫 修凯旋门 川普工程留个人烙印延续崇拜
  5. 13岁女孩爬冰救人,对父谴啮了个谎
  6. 不只是降息?鲍威尔下周三或宣布450亿美元购债
  7. 美老兵88岁仍须打工 获170万美元捐款终可退休
  8. “郑习会”将登场?
  9. 睡觉出现4种迹象,寿命可能长不了
  10. 美沉默应对日中紧张,金融时报揭内幕:日本深感失望
  11. 小伙玩彩票一年,就中了巨额头奖
  12. 全国首个:哈工程成立新学院
  13. Yann LeCun离开Meta后首篇论文?
  14. 中共巨婴外交暴露真面目《华尔街日报》警告世界
  15. 美防长点名增加军费“模范盟友” 称搭便车自负后果
  16. 美国给欧洲划死线:2027年,接管北约大部分常规防务能力
  17. 美国不再要求新生儿接种乙肝疫苗
  18. 突然听劝的苹果,让人有些不太习惯
  19. 一位联邦政府公务员打算退休
  20. “稀土王牌”打不倒?智库专家点出北京真正撒手锏
  21. 电影《芳华》解说爆红引热议 胡锡进:文革是内乱
  22. 川普长子:可能放弃调停乌战
  23. 加前情报局长:高校与企业已成中国情报渗透新战场
  24. 知情人揭露武汉女监设“疯子队”“特警队”
  25. 日资深外交官出炉“中国共产党指南”应对中共霸凌
  26. 连环丑闻层出不穷 美战争部长面临党内外下台呼声
  27. 马克龙告中共 不减对欧贸易顺差将面临关税
  28. 美乌3天会谈无明显突破
  29. 中共多名高官提前下台 疑与“裸官”有关
  30. 广州房票买爆全城,黄埔拆迁户半月买600套
  31. AI不只取代人类?黄仁勋:连“机器人服饰设计师”都可能成真
  32. 美称与乌接近达成协议 俄却要求对部分条款彻底修改
  33. 美国3囚凿墙用床单越狱 1人涉谋杀未遂犯仍在逃
  34. 这位水彩艺术家,画出了水彩的韵味
  35. 灵界疯了 2026预言全公开 中国最震惊
  36. 美纪念珍珠港事变84周年 首度未见幸存老兵出席
  37. 日方召见中国大使抗议军机雷达照射 高市称冷静应对
  38. 加州州长遭讽坐姿怪异 引用AI图片反击引发争议
  39. 日本女性出国卖身成风 2个月赚近百万港元再包牛郎?
  40. 伦敦希斯路机场胡椒喷雾袭击致多人伤 机场交通出现中断
  41. 日军机遭中共歼-15雷达照射 高市早苗回应
  42. 【直播】国际太空站举行指挥权交接仪式
  43. 【直播】2025年诺贝尔生理学或医学奖获奖演讲
  44. 日媒:中共对日企出口稀土审批出现延迟
  45. 日本寿司郎进驻上海 两新店开张 顾客大排长龙
  46. 台湾指中共4海军编队集结西太平洋 专家解析
  47. 北约2年后“脑死”?
  48. 涉加密货币,加国税务局追缴税款超1亿
  49. 老人遭木棍猛击,嫌犯5分钟落网
  50. 高市疯狂作妖,中国为啥没“抵制日货”?
  51. “茅台神话”正破灭
  52. 纽森遭讽坐姿怪异,用AI图片反击
  53. 上海出现“坦克人” 退役海军与中共军警对峙
  54. 川普政府征收“逮捕费”:5000美元
  55. 女学生为解救“受苦”肉鸡闯禽厂,获重罪
  56. 每天坚持吃这4类,免疫力暴涨
  57. 欧盟要挪用俄被冻结资产,美国坐不住了
  58. 他们让万亿参数RL学会了“省着跑”
  59. 申万宏源:高股息行情或提前启动
  60. 台湾UG茶饮登陆洛杉矶 圣盖博现排队潮