可微奖励就该直接微调

2026-03-10 04:25:20 · chineseheadlinenews.com · 来源: 量子位

用强化学习微调扩散模型,还有更好的办法吗?

来自港中深、微软研究院等机构的 VGG-Flow 团队给出了一个新思路:既然奖励函数本身是可微的,为什么非要绕弯路用 PPO、GRPO?

在大规模生成模型的对齐任务中,通常依赖强化学习,在某个奖励函数上微调模型以贴近人类偏好。而事实上,大部分奖励模型本身是在偏好数据集上训练过的神经网络。既然奖励是可微的,能否直接利用 “可微性” 本身,高效而稳定地微调流匹配模型?

主流做法主要分为两类路径:一条路是把模型当作黑盒,通过像 Flow-GRPO 那样,把原本确定性的 ODE 采样过程强行转为随机 SDE,适配经典的强化学习框架来采用高方差的策略梯度方法(如 PPO、GRPO);另一条路则更加直接,如 ReFL 等方法,通过近似手段优化某些取样步对应的奖励值,但这种做法在目标层面上缺乏严格的理论支撑,也往往容易导致过拟合与模式坍塌。那么是否可以走一条新路线?

VGG-Flow 团队回归第一性原理,将奖励微调重新表述为一个连续时间最优控制问题。通过 Hamilton–Jacobi–Bellman(HJB)方程,直接将 “可微奖励” 转化为价值梯度,为流匹配对齐提供了一条更稳定、更鲁棒的路径。目前该项目已被 NeurIPS 2025 接收。

VGG-Flow 的核心思路:最大化 “终态奖励?累计代价”

流匹配模型通过在随机取样的 x?上模拟时间 t=0 到 t=1 的轨迹?=v (x,t) 来生成样本,其中 v (x,t) 是流匹配模型的速度场。

微调后的速度场可以被写成预训练模型与残差的和:v??(x,t)=v_base (x,t)+???(x,t),其中预训练模型是 v_base (x,t),残差是???(x,t)。

直观来看,为了避免模型在微调过程中过度偏离原有分布,微调在最大化样本奖励的同时,需要约束预训练模型与微调模型在取样路径上的差:

从最优控制的角度看,这就是一个终态目标加上一段路径累计代价(cost-to-go)。

HJB 方程:从价值到梯度的解析直觉

在最优控制理论中,价值函数 V (x,t) 描述了从状态 (x,t) 出发的最优预期成本。根据定义,上述目标对应如下的价值函数:

其演化满足以下 Hamilton–Jacobi–Bellman(HJB)方程(强化学习中贝尔曼方程的连续时间形式):

由此可以得到最优修正项的解析形式:

这得到一个非常直接的结论:最优微调方向 = 价值函数的梯度。不需要采样优势函数,不需要计算对数概率比,也不需要进行策略比值裁剪。只需估计价值梯度,即可直接、可微地更新流匹配模型。

这个价值函数如何得到?将最优速度场代回 HJB 方程,可以得到如下的价值一致性关系:

通过求解满足该一致性关系的价值函数,即可得到用于训练速度场的目标梯度。

参数化:将先验写入梯度

为了使价值梯度?V (x,t) 在训练初期具备合理的引导方向,VGG-Flow 引入了 Forward-looking 参数化方法:

预估终点:在 x?处进行一步 Euler 前推,得到预估终点

参数化引导:利用一步前推的奖励梯度对价值梯度?V (x,t) 进行参数化:

在这种设计下,模型仅需学习残差项即可实现对齐。团队在实验中发现,即使不学习残差,仅依赖奖励梯度的参数化引导也能实现明显的对齐效果。这一技巧可以显著降低流匹配模型微调的计算成本。

优化目标

在该框架下,VGG-Flow 的损失函数可以写为:

梯度匹配损失:使速度场修正项拟合价值梯度

价值一致性损失:最小化 HJB 方程的残差

终端边界损失:根据价值函数定义,确保 t=1 时的边界条件成立

实验效果

在 Stable Diffusion 3 上的实验中,仅需 400 次更新,VGG-Flow 即可实现奖励信号的稳定提升。在 Aesthetic 和 PickScore 指标上,方法展现出较高的收敛效率与良好的多样性保持能力。相比 ReFL、DRaFT 等方法,其表现更为稳健,更不易遗忘预训练模型中的先验,生成结果更加自然。其收敛也快,并且直接作用于流匹配模型本身,无需额外将 ODE 转换为 SDE。

△ 图 1:Stable Diffusion 3 在 Aesthetic Score 奖励下采用 VGG-Flow 微调的结果

△ 图 2:Stable Diffusion 3 在 PickScore 奖励下采用 VGG-Flow 微调的结果

△ 图 3:在 Aesthetic Score 奖励下,奖励值、多样性指标与 FID 的收敛曲线。其中,奖励值、DreamSim 多样性与 CLIP 多样性越高越好;FID 越低越好。

△ 图 4:不同微调方法在各项指标上的帕累托前沿。每个点表示某次训练过程中保存的某个 checkpoint(共使用 3 个不同随机种子)。

总结

本文提出 VGG-Flow,在连续时间最优控制框架下,学习空间中每一点的价值函数梯度,并使速度场向其对齐,从而实现结构一致的可微奖励微调。

由于优化目标是匹配局部梯度,而非直接最大化终态奖励,该方法在实践中表现出更好的稳定性与鲁棒性。实验结果显示,VGG-Flow 在现有文生图模型上能够快速收敛,同时保持生成质量与多样性,为基于可微奖励函数的高效微调提供了一种新的思路。


    24小时新闻排行榜更多>>
  1. 是否将伊朗新最高领袖列为暗杀目标?川普回应
  2. 【翻墙必看】央企房产神话破灭 只剩吹牛
  3. 习近平吓坏不敢攻台湾?伊朗战争突出中共隐忧
  4. 传中共高官落马对纪委招供“睡过杨幂” 网络炸锅
  5. 海南刚封关就崩了 百姓叫苦连天!
  6. 路透:中方不满川普访中安排仓促 川习会恐难有突破
  7. G7财长会议,考虑动用战略石油储备
  8. “芭比”部长公然出轨男下属,绿帽丈夫为何坚守婚姻
  9. 两会主席台严控细节曝光 被指折射习政权虚弱
  10. 上海机器人表演时意外摔碎 现场一片惊呼
  11. 两名军队人大代表退役 传中共军官掀辞职潮
  12. 美国被曝对以军行动感到不满
  13. 日本加速部署升级版导弹 防范中共威胁
  14. 美媒:两艘伊朗货船从中国港口启航 疑载导弹关键化学品
  15. 分析:王毅为何认怂 否认“G2共治”
  16. 评价学生不能“穿新鞋走老路”
  17. 伊朗新领袖上台,油价利率暴涨
  18. 一场“不断缩水”的国是访问 川普访中国不带CEO
  19. 亚洲杯神奇一幕:仅靠多2个进球出线
  20. 人大代表被贬超两年总和 政协委员称坐习对面幸福眩晕
  21. 养“龙虾” 带火苹果主机 直接卖断货
  22. 传李克强一建议扭转述职尴尬 爆张又侠突发疾病去世
  23. 中共政协会议会场异常互动 引爆外界猜测
  24. 坎大哈山区血战 一场巨人与美军的秘密战役
  25. “推翻共产党 习近平下台”中国青年痛骂视频疯传
  26. 川普:无人知道谁将最终领导伊朗
  27. 日本远程导弹发射装置运抵熊本
  28. 英国18岁女游客饭店遭"8男性侵半小时"还拍片传炫耀
  29. 1962年我军保障水平远不及印军
  30. 组图:南加州河滨县“露营世界顶级房车展”
  31. 金融时报:川普的委内瑞拉模式在伊朗已失败
  32. 年轻人一边选择“断亲”,一边争当“全职儿女”?
  33. 汤姆汉克斯儿子被困国外机场 崩溃求助“需要绿卡”
  34. 20000月薪养得起“龙虾”吗?
  35. “离线休息权”,才是对职场人的善意松绑
  36. 川普称战事近尾声 油价跌 全球股市反弹
  37. A股市场整体走弱 沪深两市逾3900只个股下跌
  38. 国际妇女节有感
  39. 干净世界突破一亿用户 影视教育云端七大产品
  40. 政协委员:“与习近平面对面 幸福的眩晕感涌上…”
  41. 巴黎与多子女大家庭:一段不可能的爱情?
  42. 中共控制美打击伊朗报道 怕民众知道什么
  43. 战争本周会结束吗?川普回应
  44. 油价冲击或诱发“70年代式滞胀”
  45. 木村拓哉香港新作出演遭中止 疑日中关系紧张?
  46. 广东4儿童马路中央排成“减速带” 险酿事故
  47. 中东战争冲击全球经济的最新动态
  48. 油价回落,韩股日股上涨
  49. 川普:不会允许伊朗以石油挟持全世界
  50. 川普警告!伊朗敢动荷莫兹海峡"美国20倍奉还"特别点名中国
  51. 哥伦比亚滑水梯夺命 女子被甩出滑道身亡
  52. 日企计划赴美生产稀土磁铁 以摆脱中国供应链
  53. 世界大事距我们很远,但国际秩序离每个人很近
  54. 为何没缴保险的农民,也应该享受高覆盖的养老金?
  55. 穆杰塔巴·哈梅内伊上任,胜利靠5000万“野生诸葛亮”?
  56. 川普:古巴已“油尽灯枯”深陷困境
  57. 路易吉因“技术性缺陷”暂避死刑
  58. 逃离伊朗惊魂5天!他从炮火中接470名同胞回国
  59. 大中小学“同上一堂思政课”在上师大举行
  60. 秦刚两次敏感时刻公开露面藏玄机 于朦胧的话兑现?