世界模型新探索,自动化所牵头队伍夺冠
2026-05-18 21:25:06 · chineseheadlinenews.com · 来源: 中国科学报
近日,在全球机器人领域顶级学术会议ICRA 2026上举办的AGIBOT World Challenge世界模型赛道上,中国科学院自动化研究所(以下简称自动化所)团队牵头的NeoVerse-ABot队伍以显著优势获得冠军。团队模型在图像质量(Visual Quality)和动作跟随(Action Following)两个指标上均排名第一。
本次世界模型挑战赛主要考察模型在给定初始视觉观测和机器人动作序列后,对后续操作过程视觉演变的预测能力。与传统视频生成任务相比,该比赛更强调具身交互理解、动作条件跟随和物理结果模拟,要求模型在分布外场景和失败轨迹中仍然根据动作信号生成合理后果,因此具有较高的技术挑战性。据了解,此次挑战赛迎来全球学术界、工业界的153支顶尖团队的激烈角逐。
赛中,自动化所团队敏锐地察觉到,当前的机器人控制往往过度依赖实时感知,缺乏对复杂交互后果的深度理解。为了突破这一瓶颈,他们从底层物理逻辑出发,致力于探索动作条件下的世界模型(Action-conditioned World Model),旨在为机器人打造一套能够理解因果、预判未来的“物理大脑”。
机器人要在开放环境中可靠完成操作,不仅需要识别当前场景,更需要理解动作执行后环境如何变化。据介绍,动作条件世界模型正是面向这一关键能力的重要技术路径:给定初始视觉观测和机器人动作序列,模型需要预测机器人执行过程中的视觉演变,从而为规划、评估和闭环控制提供可预判的环境动态。
于是,自动化所参赛队伍构建了一种基于扩散模型的高保真动作条件视频生成框架NeoVerse-ABot,通过创新的时序对齐算法与多维度条件增强机制,实现了复杂操作任务下物理演变过程的精准模拟,使得模型在图像质量和动作跟随两个指标上表现出色。
团队表示,这一结果表明,模型不仅能够生成高质量机器人操作视频,更能够稳定响应动作条件,将控制信号准确转化为机器人运动、接触过程和物体状态变化,为世界模型在真实机器人操作中的应用提供了重要借鉴。
NeoVerse-ABot团队在国际比赛中的卓越表现,验证了动作条件世界模型在处理复杂具身交互任务中的巨大潜力。展望未来,团队将进一步探索世界模型与大规模强化学习、在线规划算法的深度融合。
一方面,团队计划将该模型作为“神经仿真器”,为机器人策略训练提供海量且具备物理真实性的合成数据,解决真机数据获取成本高、长尾场景覆盖难的问题;另一方面,研究将聚焦于提高模型的实时推理速度,使其能够直接嵌入到机器人的闭环控制中,实现边思考、边预判、边执行。
团队还提出,随着研究的深入,这种具备强泛化能力的世界模型将不仅局限于实验室环境,更将助力机器人在非结构化的开放场景中,实现更加安全、灵活且智能的自主操作,开启具身智能从“视觉识别”向“物理理解”跨越的新篇章。