让离线强化学习从“局部描摹”变“全局布局”

2026-04-06 07:25:29 · chineseheadlinenews.com · 来源: 量子位

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。

它们生成的轨迹经常陷入局部合理但全局偏航的窘境。

它们太关注眼前的每一步,却忘了最终的目的地。

针对这一痛点,厦门大学和香港科技大学提出一种名为MAGE(魔法师,Multi-scale Autoregressive Generation)的离线强化学习新算法。

MAGE与现有序列生成方法不同,MAGE采用自顶向下的“由粗到细”生成策略,先建模轨迹的宏观规划,再逐步细化微观细节。

MAGE的核心思路非常符合人类的直觉:“自顶向下、由粗到细”。

这就好比画一幅素描,你不会一上来就描绘眼睛的睫毛,而是先画出整体的身体轮廓(宏观规划),再逐步细化五官和表情(微观动作)

△ MAGE的思考过程

从一场”迷宫寻宝“揭示AI规划的盲区

为了直观展示现有模型的缺陷,研究团队设计了一个迷宫吃金币小实验。智能体需要从随机起点出发,依靠对环境的长程空间理解,先吃银币,再吃金币,最后抵达终点。

△ 各个算法在迷宫环境的表现

然而,面对这种需要全局规划的场景,现有的模型纷纷暴露了缺陷。

Decision Transformer受限于单向自回归特性带来的全局上下文缺失,它在长程规划中完全迷失方向,最终连终点都未能抵达。

Decision Diffuser则由于扩散模型固有的局部生成偏差,生成的轨迹往往只能保证局部合理;虽然智能体抵达了终点,却遗漏了关键的一枚金币,全局连贯性较差。

Hierarchical Diffuser虽然尝试通过分层结构建模全局轨迹,但由于其固定的双层结构过于僵硬,高低层策略之间缺乏有效协同,生成的轨迹甚至出现了物理违规的“穿墙”现象,全局规划与局部动作严重脱节。

相比之下,MAGE则通过多尺度“从粗到细”的生成架构成功完成了任务。它首先在最粗的时间尺度上勾勒出包含所有关键节点的宏观全局轮廓,随后利用多尺度Transformer在更细的时间尺度上逐层细化,顺利规划出完整的路径。

MAGE的核心思路:从画大纲到扣细节

MAGE采用“自顶向下、由粗到细”的生成方式。MAGE包含两大核心模块,并辅以精确的控制机制:

△ MAGE的架构图

MTAE多尺度轨迹自编码器:MAGE将长序列轨迹转化为从粗到细的多尺度离散Token。粗尺度的Token负责掌控全局长程结构,最细尺度的Token则详细建模短期的动态细节。

多尺度条件引导自回归生成:模型使用Transformer序列化地生成这些多尺度Token。在生成每层时,都会严格以“目标回报”和“初始状态”作为条件进行约束,确保智能体的每一步都在朝着最终目标前进。

条件引导细化与动作决策:因为把连续世界变成离散Token会丢失信息,普通的生成过程容易让轨迹起点偏离现实。为此,MAGE在解码器中集成了轻量级的适配器(adapter)模块,并引入了条件引导损失函数Lcond,强制解码出的初始状态与真实环境是精确对齐的。最后,通过潜在逆动力学模型决定最终的动作。

实验表现:长序列任务全面超越,推理速度满足实时控制

研究团队在包含Adroit、Franka Kitchen、AntMaze等5个离线RL基准测试中,将MAGE与15种具有代表性的基线算法进行了广泛的评估。

多任务表现出色

在极具挑战的高维连续控制Adroit机械臂任务中,面对极其稀疏的奖励,MAGE实现了显著的性能提升,大幅优于对比方法。在强调子目标执行顺序的Franka Kitchen组合任务中,MAGE凭借捕获全局结构和局部细节的能力,以相当大的优势超越了所有竞争算法。

在迷宫导航任务中,MAGE在所有数据集上均取得了最佳性能,证明了其处理长序列导航任务的卓越能力。

极高的推理效率与部署潜力

MAGE在保持高性能的同时,实现了出色的计算效率平衡。实验数据表明,MAGE的运行速度比Hierarchical Diffuser快约50倍,比Decision Diffuser快80倍。其每步推理时间保持在27毫秒,完美满足了真实机器人控制所要求的20 Hz实时运行门槛。

结语

MAGE成功地将多尺度轨迹建模与条件引导相结合,通过“从粗到细”的自回归框架生成连贯且可控的高回报轨迹。当有一天,机器人不再需要人类一口一口地“喂”奖励,而是能够自主审视全局,制定长远计划并流畅执行时,也许具身智能的下一个奇点就真正到来了。


    24小时新闻排行榜更多>>
  1. 推土机冲撞事件后 多个“大集”消失 北京气氛骤紧
  2. 马兴瑞从广州挤走一官员 爆中共悄进行夫人整风运动
  3. “准备逃命”!CNN揭台湾逃生计划 富人早把钱转走…
  4. 爆多起献忠事件 沈阳街头砍人 官方封消息死伤成谜
  5. 马兴瑞落马引爆猜测:有彭丽媛当后台仍难自保?
  6. 央行抛售黄金影响几何?
  7. 内部有美、以间谍? 爆海康威视三百多人被带走
  8. 罕见“降温”信号:一艘油轮成功闯过霍尔木兹海峡
  9. 日经分析:伊朗会变成第二个朝鲜吗?未来三条路径
  10. 美军深入敌方救出F-15E飞官 料改变战局或战略
  11. 纽约吃霸王餐华人网红又出事 被担架抬走 明显胖了…
  12. 美军敌后救出飞行员 向伊朗释何信号?
  13. 北大法律硕士,与一个停车位上的死亡纠纷
  14. 美坠机飞行员如何躲过伊朗搜查?专家:靠SERE
  15. 清明徒步大军“堵死”南太行
  16. 川普下达新的最后通牒,市场失控了
  17. 军事基地放炸弹的华裔姐弟 父母非法滞留30年 已被逮捕
  18. 我们是最后一代!中国年轻人挣扎中求生!
  19. 2026离火年 要“人艰不拆”格外惜福报
  20. 美军自毁多架战机、运输机!只为救飞行员逃脱
  21. 沈阳和平区发生一起当街伤人案,嫌疑人已被控制
  22. 30年前营救行动:美飞行员躲追捕6天 吃树叶蚂蚁充饥
  23. 在一些人眼里,不亲美以,就是粉红
  24. “赢不等于消灭对手”:川普的战争精算法曝光
  25. 加拿大医院急诊等候,致5人死亡
  26. 同样食材饭店炒的香?大厨不传的秘密全在这
  27. 科学家用活体神经元完成计算任务
  28. 获救细节:飞行员发非常信息 川普起初以为是陷阱
  29. Costco越来越贵!新品被网友骂惨:这也值15刀?
  30. 传沈阳男子随机杀人后跳楼 砍6人4死1人断头
  31. 中共官媒称美军搜救无果试图炸死飞行员 遭炮轰
  32. 北京祭严管令 禁止向未成年提供“亲密关系”服务
  33. 伊朗革命卫队情报机构负责人,遭美以空袭身亡
  34. 中东局势进入关键窗口期,24小时定走向?
  35. 中国富人正涌入非洲首都 用现金狂扫豪华住宅
  36. 伊朗宣称击落F-16真相曝光遭打脸 残骸证实是…
  37. 为什么说日本的干净来自于大唐?
  38. 还要打多久?他看见伊朗战争大结局
  39. 美军深入伊朗营救队友 战争英雄盛赞
  40. 伊朗军方:霍尔木兹海峡运行永远不会恢复至原状
  41. 河北沧州暴力杀妻案凶手金昊,已被执行死刑
  42. 日本紧抱布偶的小猴 照出了人不敢说的孤独
  43. 美军冒死救战友 中共落单兵自毁装置引关注
  44. “张雪机车”打假
  45. 加州Panera“封死充电口”?
  46. 加财长率金融巨头访华推动贸易回暖引批评
  47. NASA公布“阿尔忒弥斯2号”拍摄的月球背面照片
  48. 湖南维权人士陈俊贤呼吁还民众公正法治环境
  49. 金主爱被视为朝鲜政权接班人
  50. 川普关税一周年:中国难以复制
  51. 成为阎罗王 特意带友人走一遭地狱
  52. 乘客空中诞婴 纽约机场塔台员工建议取名肯尼迪
  53. 沙漠中的亚特兰提斯?被天谴消灭的罪恶之城
  54. 这国表态:准备好加入美国为首的行动
  55. OPEC+:修复能源设施昂贵且耗时
  56. 阳台10㎡变身梦幻花园!3步改造,邻居都来偷师
  57. 伊称击落12架美飞机!嘲美怕丢脸"自轰战损飞机"
  58. 加航部分航线机票涨价50加元
  59. 燃油费涨价,最懂省钱的人,已经开始囤机票了
  60. 中国碳14核电池横空出世