攻克强化学习“最慢一环”

2025-09-13 08:25:24 · chineseheadlinenews.com · 来源: 量子位

强化学习的训练效率,实在是太低了!

随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,强化学习(RL)无疑是那把最关键的密钥。

然而,这场竞赛的背后,一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理,RL训练更像一个效率低下的“手工作坊”,投入巨大但产出缓慢。

其中,占据超过80%时间的Rollout(响应生成)阶段,由于其内存带宽限制和自回归特性,成为了整个AI基础设施中公认的阿喀琉斯之踵。

如何攻克这块AI基建的最后高地?现在,上海交通大学与字节跳动研究团队给出了一个全新的答案。

该团队联手推出的RhymeRL,从一个被忽视的现象入手,巧妙地将历史数据变废为宝,在不牺牲精度的前提下,将RL训练吞吐量提升了2.6倍。

模型生成的答案存在两大“历史相似性”

该研究团队深入分析了大量RL训练过程,发现在相邻的两个训练周期中,尽管模型权重已经更新,但对于同一个问题(Prompt),模型生成的答案(Rollout)存在两大“历史相似性”:

第一,序列相似性。

新答案“继承”了旧答案的思路,高达95%的历史Token都可以直接复用。

第二,长度分布相似性。

上一轮里,哪些问题让模型“思来想去”,这一轮大概率依旧如此。响应长度的排序惊人地稳定。

该研究团队认为,这种相似性,主要源于PPO/GRPO等主流RL算法为了保证训练稳定而采用的梯度裁剪(Clipping)机制,它让模型的进化变得平滑而有迹可循。

这就好比一个学生,虽然每天都在进步,但他解决同一类型问题的思考路径和草稿篇幅,在短期内是高度相似的。

既然如此,历史的旧草稿能否成为新一轮学习的模版?

针对Rollout阶段的低效现状,提出新框架RhymeRL

基于这一洞察,RhymeRL框架应运而生。

针对Rollout阶段的低效现状,它包含两大核心利器:

HistoSpec和HistoPipe。

△RhymeRL的核心设计示意图

HistoSpec

传统的Rollout,是一个Token一个Token往外蹦的自回归过程,速度慢且GPU利用率较低。

而HistoSpec独创性地将投机解码(Speculative Decoding)技术引入RL,它不再需要一个额外的小模型来“猜”草稿,而是直接把上一轮的历史响应作为“最佳剧本”。

这就像开卷考试,你提前拿到了去年的标准答案作为参考。

起草(Draft):直接从历史响应中巧妙地总结出树状草稿。

验证(Verify):将整段草稿一次性扔给大模型,通过单次前向传播,并行验证所有Token的正确性,然后“接收”所有匹配的部分。

由于历史序列的超高相似性,草稿的接受率极高。

这使得计算过程从逐字生成变成了“批量验证”,计算密度飙升,打破了内存带宽的枷锁,让单个响应的生成速度实现了质的飞跃。

△HistoSpec采用的基于树的历史响应管理,实现了草稿的高速、准确生成

HistoPipe

仅仅让单个响应变快还不够。

在批处理中,不同任务的响应长度不一,短任务总要等待长任务,导致大量GPU资源被闲置,产生了巨大的“空泡”(Bubble)。

HistoPipe是一位具有前瞻性的调度大师,它的目标是:

榨干每一滴GPU算力,实现无空泡的完美流水线。

基于“长度分布相似性”的洞察,HistoPipe不再强求单一步内实现负载均衡,而是玩起了“跨步互补”——在奇数步,让所有GPU由短到长处理任务;在偶数步,则反过来,由长到短处理。

这样一来,上一步因为处理长任务而拖慢的GPU,在下一步会优先处理短任务,完美填补了时间差。

通过这种巧妙的削峰填谷,HistoPipe将整个集群的资源浪费降至最低。

△HistoPipe的流水线设计,通过跨步互补调度实现了无空泡调度

2.6倍加速,精度无损

当模板HistoSpec遇上调度大师HistoPipe,产生反应是惊人的——实验结果表明,在数学、代码等任务上,RhymeRL相比于基础系统取得了大幅性能提升,端到端训练吞吐量提升高达2.61倍。

这意味着,研究者和企业可以用更少的资源、在更短的时间内,完成更强大的模型训练,极大地加速了AI技术迭代的步伐。

△RhymeRL在不同模型大小和不同响应长度下都取得了显著加速效果

RhymeRL的重要意义在于,它提出了一种新的强化学习范式——基于历史信息来端到端地加速强化学习效率。

强化学习不是简单的推理与训练的拼接,通过深入剖析其任务特性,RhymeRL能够充分发挥系统统筹调度能力与底层硬件的算力资源,同时无损地适配各种已有的训练算法。


    24小时新闻排行榜更多>>
  1. 中共地方债逼近1万亿美元 欠薪现象蔓延全国
  2. 刘建超出事内情流出:泄密、内斗、性丑闻
  3. 美商务部长:中国52%高关税 北京大部分自己吞下
  4. 精准射杀柯克,枪手是全A学霸
  5. 绝无仅有,一组老北京的照片
  6. 川普想让哈佛大学投建职业学校
  7. 撤回鹰派人选提名 传川普政府对中国科技松绑
  8. 印度欲弯道超车中国 抢先祭出“核动力航母”计划
  9. 中国5款隐身机同框列装
  10. “MAGA三代领袖”被刺,背后暗战
  11. 传奇青年导师柯克的人生——短暂但精彩
  12. 中共内斗升级 武警司令等四将遭罢人大代表
  13. 重庆女生与博士老公比利时摆摊卖面 日入一千欧元
  14. 苹果AI大失血:Siri前掌门离职,核心团队被挖角
  15. 人大罢免代表 王春宁与王志斌为九三阅兵送葬
  16. 【纪元焦点】“军队国家化”话题悄然解禁?
  17. 丰田、凌志和斯巴鲁召回九万多辆汽车
  18. 川普称俄无人机闯波兰领空可能是失误 波兰总理驳斥
  19. iPhone 17中国预售 官网被挤崩 多款机型卖光
  20. 以色列敏感目标,遭多弹头高超音速导弹袭击
  21. 美商务部长松口:即将与台达成“重大协议”
  22. 石家庄突发巨响,有居民称“房子玻璃都震动了”
  23. 孩子一走,配偶终于处成道友
  24. 山东一中学师生疑集体食物中毒 官方通报惹疑
  25. 美将23家中国科企和实体列入出口黑名单
  26. 遭美拘留韩国工人返国亲人泪迎 民团讽“不是朋友吗”
  27. 东非野踪:去坦桑尼亚
  28. 君要臣死,臣偏不死
  29. 1郊狼在天使岛附近海域游泳
  30. 柯克案更多细节:嫌犯宁自杀也不自首
  31. 遭拘韩劳工返国 韩企承诺培训美工人以化解争议
  32. 情报专家撰书揭秘中共渗透 加国PEI沦为“前哨基地”
  33. 惊悚:郑州大水遇难者 中共医疗队现场立马摘除眼角膜
  34. 川普派遣国民警卫队进驻孟菲斯 市长州长齐欢迎
  35. 川普宣布将向孟菲斯派遣国民警卫队 打击犯罪
  36. 川普促北约国家停购俄石油 对华征高关税
  37. 应志宏持有中共证件 陆委会:注销台湾户籍
  38. 达拉斯汽车旅馆惊传斩首案 被害者头被丢进垃圾箱
  39. 九三阅兵式上两款无人机,美军慌了
  40. 尼泊尔前首席大法官就任临时总理
  41. 前首席女大法官就任尼泊尔临时总理
  42. 对手克拉夫特退选 台裔波士顿市长吴弭连任几率高
  43. 川普纽约宴请卡塔尔首相 斡旋中东局势
  44. “旁听士”吴云鹏被郑州警方处以治安拘留五日
  45. 美媒:这不能怪中国,印第安纳州得到了教训
  46. 综艺节目用歌,那英搞定版权
  47. 马斯克xAI被曝裁员至少500人,Grok 团队是重灾区
  48. 韩工厂遭美突袭后续:工人包机返韩
  49. 大赛选手:提升修养 才能体现传统文化之美
  50. 贝索斯新妻和C罗未婚妻罕见同框,比拼30克拉钻戒
  51. 坏人长啥样?专家研究2000张人脸 竟发现??
  52. 枪杀柯克后逃逸33个小时 嫌犯落网细节
  53. 以色列多哈的“贵客清场”是否正义?
  54. BC省长支持率几乎全国垫底
  55. 组图:柯克遇害 美国多地民众秉烛悼念
  56. 女孩被继母生父虐待致死案将二审
  57. 【人物】柯克短暂但精彩的传奇人生
  58. 柯克遇刺吓傻美议员 为保命“活动取消、出门要带枪”
  59. 北京1公园现“会咬人的草”
  60. 攻克强化学习“最慢一环”