陈丹琦新作:大模型强化学习的第三条路

2025-09-28 03:25:11 · chineseheadlinenews.com · 来源: 量子位

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陈丹琦新作来了。

他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。

它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。

支持在基础模型上直接使用,甚至不需要SFT,可以大幅节省后训练成本。

网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的“新得分手”。

让小模型轻松超越大模型

RLVR(通过可验证奖励的强化学习)能够在数学、代码等任务中大幅提升模型的推理能力,但是在更开放的任务(比如写大纲、制定饮食计划)上的泛化能力有限,这些任务是人类日常推理的常见场景。

本文提出的RLMT就是证明,RLVR范式在可验证领域之外同样有效。

它要求模型在生成回答之前输出长思维链(CoT),并利用基于人类偏好的奖励模型(与RLHF中相同)进行在线强化学习。

比如对于非数学代码问题,它依旧可以分步骤拆解:回顾→综合→关键主题→核心准则→举例→结构化回答。

比如在Wildbench(一个基于真实任务建立的基准)上,优化后的Qwen2.5-7B大幅领先其他模型。

它的训练流程如下:

给定一个用户提示x,模型先生成一个推理轨迹z,在推理基础上生成最终回答y,奖励模型r(x,y)对结果进行打分。

数学上,RLMT优化的目标是:

然后使用人类偏好奖励模型(论文中用的是Skywork-v2),对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。

在优化算法方面,RLMT使用在线强化学习算法来更新模型参数,主要实验了DPO、PPO、GRPO,结果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始终优于RLHF。

训练数据来自于真实用户对话,避免像RLVR那样过度偏向数学/代码。

训练方式有两种:

Warm-start(带SFT预热):先使用少量SFT数据教会模型CoT格式,再用RLMT优化;

Zero(无SFT直接训练):在基础模型上直接加入固定前缀提示,让它学会“思考+回答”结构,通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT,模型在推理风格上更像人类思考:它自然学会了分组、约束分析、跨部分联系、迭代修正等,从而带来更高质量的对话和写作效果。

研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。

结果显示小模型经过RLMT训练可超越大模型,大幅简化后训练成本。

陈丹琦团队出品

本项研究一共三位作者:陈丹琦、Adithya Bhaskar、叶曦。

陈丹琦,普林斯顿大学计算机副教授,普林斯顿NLP小组负责人。最近加盟了Thinking Machines Lab。

她本科就读于清华大学“姚班”,2018年在斯坦福大学获得计算机科学博士学位,导师为Christopher Manning。曾获得诺奖风向标之称的斯隆奖。

她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。

研究一作为Adithya Bhaskar和叶曦。

Adithya Bhaskar现在是普林斯顿大学博三学生,师从陈丹琦。

叶曦是普林斯顿语言与智能研究所博士后。

本科毕业于清华大学,在奥斯汀大学获得博士学位。主要研究方向是NLP,重点在提高大语言模型的可解释性和推理能力。


    24小时新闻排行榜更多>>
  1. 华邮揭统促党涉渗透活动 轻罚难遏共谍横行
  2. 王沪宁“背手”新进展 中共新华社火上浇油 王沪宁这一幕和薄熙来好像
  3. 母亲46岁生下她,刘德华用亿万富养
  4. 员工阻止小偷遭袭,不治身亡
  5. 韩企独享全球天然气船订单 中国船业遭重挫
  6. 【纪元焦点】汪洋路线正强势回归?
  7. 四中全会日期确定 82军现身?北京西山飞火箭!
  8. 大温数家星巴克门店关门了
  9. 安省小镇大批居民卖房、卖车、搬家
  10. 十大日本限制级神剧,每部都能让你爽到爆
  11. 中国军工帮衰落 下一个“老虎”浮现
  12. 一夜醒来后院没了!洛杉矶千万豪宅一夜变成危房
  13. 一家4口确诊胰腺癌,妻子后悔莫及
  14. 清华大学爆重大丑闻!多名师生带游客入校牟利被逮
  15. 美国人的养老真相|关于养老院 居家养老和错位的时间
  16. 涉南加12起珠宝抢劫案 6名“砸抢”嫌犯被捕
  17. 【时政春秋】中共稀土大厦将倾 替代磁铁找到了
  18. 美媒曝光:美军正秘密研究大型飞翼式隐形飞机
  19. 中共推K签证抢人才 分析:难与美签证匹敌
  20. 白宫宗教委员:中共跨国镇压本质上是战争
  21. 美国力争增加12种武器产量 为美中冲突做准备
  22. 亚当斯时代即将落幕
  23. 狗血!CEO偷情女下属被捉奸后续:巨富丈夫当晚也…
  24. “挖,宝贝,挖!” 川普政府拟全面复兴煤炭产业
  25. 王健林限高令撤销 王思聪被执行1210万 父子同登热搜
  26. 鞠婧祎照片中出现男士内裤
  27. 黄仁勋语出惊人:中国晶片只落后“几奈米”
  28. 夫妻分房睡伤感情? 2优点展示:爱不在一张床上
  29. 男孩游历天堂 证实神的存在
  30. 3只黑天鹅,应届毕业生濒临就业末日
  31. 一段好的婚姻 都守住了这3样东西
  32. 被塑造的一生:中共洗脑术如何改变一代又一代中国人?
  33. 加州男子将性犯罪者折磨致死!自称“感到很快乐”
  34. 震惊!乌战场已有70万俄军仍陷僵局 普京的下一步是…
  35. 10天拍99场吻戏!美女演员遭分手 中国网友热议
  36. “中山大学极地”号返航广州
  37. 共产党如何偷走人的灵魂?陈毅绝命诗还原内幕
  38. 5800万磅热狗和香肠串被召回 含木屑致多人受伤
  39. 被指为中国情报部门工作,他被判处监禁
  40. 美国土安全部正在追踪反ICE活动的幕后金主
  41. 川普:若哈马斯拒绝和平协议 将被摧毁
  42. 贵州城管局副局长被爆性侵9岁继女多年 引众怒
  43. 于朦胧恩师告阴状 历史上有地藏王出手得昭雪
  44. 她认罪:国内非法集资400多亿,换6.1万枚比特币逃英国
  45. “十一国殇日全民公祭于朦胧”公开信呼吁:聚集北京天安门
  46. 分析:中国电动车行业或重蹈房地产覆辙
  47. 恩师为于朦胧超渡冤魂 爆出更多讬梦细节
  48. 纪念田长霖校长:做人中庸,做事极端
  49. 韩国检察厅被废:李在明意图推翻“青瓦台魔咒”
  50. 恐动摇朝鲜世袭体制根基?日媒记者公开金正恩外婆身世
  51. 内塔尼亚胡对多哈空袭表示“遗憾”
  52. 猛!恶劣旅客不繫安全带 夏威夷航空霸气“全机折返”
  53. 中联部长去向不明,日中执政党交流搁浅
  54. 国内非法集资400多亿,换成6.1万枚比特币?她认罪了
  55. 横向对比多个国家:养老金为什么不能“多缴多得”?
  56. 三女子泄露ICE探员地址 被联邦大陪审团起诉
  57. 万斯:政府宁愿关门 绝不给非法移民免费医疗
  58. 金正恩大饼脸的秘密!日媒揭:非纯正白头血统
  59. 中共称劳动人口红利仍在 但无法掩盖失业窘况
  60. 四度转身跨越四大洲:林玫君的“自由”创业学