中科院自动化所提出BridgeVLA模型

2025-06-26 03:25:24 · chineseheadlinenews.com · 来源: 新智元

中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。

近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的重要引擎。

但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调;

反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果以及3D操作策略的效率?

中科院自动化所的研究人员提出的BridgeVLA给出了肯定的回答!

实验表明,BridgeVLA仅需采集3条轨迹就能在基础设置中实现96.8%的任务成功率。

在多种泛化性设置中,比如未见过的干扰物、高度、光照、物体种类以及未见过的物体技能组合等,BridgeVLA展现出碾压式的性能,相较于基线模型取得了32%的性能提升。

在仿真中,BridgeVLA屠榜了主流3D机器人操作基准,在RLBench、COLOSSEUM、GemBench等三个仿真基准中均取得了最先进的性能。

2D VLA的泛化,3D Policy的效率,这下全部打包带走!

缩小VLM和VLA之间的迁移差距

图1. BridgeVLA统一输入与输出的方案,兼顾泛化性与高效性

近来,OpenVLA、pi0等2D VLA架构在机器人领域取得了广泛关注,它们借助预训练多模态大模型强大的表征能力,将自然语言指令、图像观测与动作预测串联在一起,展现出很强的泛化能力。

然而,这类型2D VLA所带来的代价同样很大:为了让模型真正学会每个任务,往往需要上百条专家演示。这其中的数据收集、清洗与标注需要高昂的人力成本,很难在更大规模的工业场景下落地。

与此同时,研究者们发现,如果直接在3D空间中学习动作策略,凭借3D输入蕴含的显式空间结构信息,模型只需极少的轨迹就能掌握操作技能,具有很高的数据效率。

因此,理论上来讲,将3D信息和VLA相结合是有可能构造出一个高性能且高效率的3D VLA模型的。然而,当前已有的3D VLA模型却并未实现上述期待。

BridgeVLA的研究团队发现,这背后有两个方面的原因:

1)这些方案输出形式割裂。大多数3D VLA方法把动作输出建模为 token 序列,这样的做法割裂了动作输出与观测输入之间的空间对应关系,难以充分利用三维几何信息。

2)这些方案的输入和预训练多模态大模型的输入分布不匹配。预训练VLM是以2D 图像作为输入的,而这与微调阶段的3D 输入分布差异巨大,导致直接迁移效果不佳。

基于这些观察,BridgeVLA的研究团队提出:如果将3D输入与动作输出都统一到2D空间,同时将预训练阶段的输入和输出也统一到2D空间的话,将可以同时继承2D VLA的泛化能力与3D操作策略的数据效率。

BridgeVLA是如何设计的?

图2. BridgeVLA 2D热度图预训练与3D动作微调结构图

BridgeVLA的训练流程主要分为两个阶段:首先是2D 热度图预训练,然后是3D动作微调。预训练阶段主要用于提升模型的空间感知能力,使其具备从图像和语言描述中精准定位目标区域的能力;而微调阶段则通过三视角图像进行动作预测,完成具体的 3D 操作策略学习。

传统的预训练多模态大模型在预训练阶段主要通过预测token 序列来完成分类或生成任务,而这样的token序列并不具备任何的空间结构。

为了使模型具备空间定位能力,BridgeVLA 设计了一种热度图预训练方式,训练模型根狙棠本指令预测关于目标对象位置的概率热度图,并使用了 RoboPoint 中的目标检测数据集进行预训练。

在模型结构上,BridgeVLA使用了由SigLIP视觉编码器和Gemma Transformer构成的PaliGemma作为VLM主干。

预训练时,模型的输入为图像与其对应的文本描述(如图中红色的杯子在哪),然后通过PaliGemma提取特征,最后使用一个可学习的上采样模块生成与原图同分辨率的热度图。

整个过程采用交叉熵损失进行监督训练。这种预训练策略使VLM获得了空间感知能力,能够根据语言描述在图像中精准定位目标区域,为后续下游3D操作策略学习提供帮助。

在微调阶段,模型的目标是根据3D点云和语言指令输出合理的机器人动作。

具体来说,BridgeVLA首先从顶部、正面和右侧三个方向将点云渲染为三幅2D图像,并将其作为输入送入经过重新预训练的 VLM 主干网络。模型随后会为每个视角生成一张2D 热度图。

为了保持微调与预训练的一致性,VLM 的输入中不包含机器人状态或其他非视觉信息,从而避免输入分布偏移。通过结合深度图和相机参数,三个热度图可以被反投影,从而得到末端执行器的位置估计。

末端执行器的旋转姿态和夹爪开闭状态则通过额外引入的MLP进行预测。

泛化性能与采样效率的兼得

BridgeVLA在多个主流3D操作榜单上都取得了最先进的性能。在RLBench中成功率达88.2%,相较于基准模型提升了6.8%

而在环境出现颜色、材质、物体大小等12种干扰的COLOSSEUM环境中相较于之前SoTA方法提升了7.3%,在同样极具挑战的GemBench环境中,即使面对全新位置、全新物体的考验,BridgeVLA也取得了最佳的50%的成功率。

这些实验都证明了BridgeVLA具备很强的泛化能力,充分利用了预训练多模态模型中蕴含的丰富视觉与语言先验知识。

图3. BridgeVLA 在RLBench上的实验结果

图4. BridgeVLA 在COLOSSEUM上的实验结果

图5. BridgeVLA 在GemBench上的实验结果

BridgeVLA同时在真机实验中进行了大规模实验,BridgeVLA可以很好的克服干扰物、不同高度、不同光照条件、不同背景的影响,同时也具有一定的组合泛化能力、和全新物体的泛化能力,这都得益于预训练骨干网络中蕴含的先验特征。

同时BridgeVLA也证明了其极高的数据效率,仅仅使用3条轨迹就可以达到96.8%的基础任务成功率,几乎与使用10条轨迹训练的版本持平,结果表明BridgeVLA不仅泛化能力强,而且对数据要求极低,非常适合在真实机器人系统中部署与扩展。

图6. BridgeVLA 在真机实验上的实验结果

BridgeVLA通过统一预训练的输入输出到二维图像空间,建立起了一个高性能且高数据效率的3D VLA新范式。

可以预见,未来将有更多类似的探索推动 VLA 模型持续演进,迈向新的高度。


    24小时新闻排行榜更多>>
  1. 北京撞人惨案官方封锁消息 网曝多名小学生当场惨死
  2. 北戴河会议前 苗华被免中央军委委员职务
  3. 【唐青看时事】李强像总书记?胡春华像接班?
  4. 传涉苗华案 中共海军参谋长李汉军坐实被查
  5. 印度拒绝签字 上合组织防长会议未发联合声明
  6. 中核集团副总工落马 前中联办主任转任闲职
  7. 因果轮回真存在 记得前两世的“再生人”
  8. 火星表面惊现巨型“蜘蛛网” 古代水道证据?
  9. 【纪元焦点】北京传“秋天有变” 习气数尽了?
  10. “种瓜得瓜 种豆得豆”揭示了果报之天机
  11. 防止泄密?中国又一群体遭收缴护照
  12. 日媒曝江青绝命书 指控“这个人”祸国殃民
  13. 贝索斯与桑切斯威尼斯“世纪婚礼”五大看点
  14. 川普竞选筹款部门开卖“爸爸衫”
  15. 男子性侵宠物马,被判15个月矫正令
  16. 中美关税缓和后,中国内陆贸易枢纽迎来货运增长
  17. 中金:稳定币的经济学分析
  18. 中国东北高温笼罩 多所高校无空调学生睡操场
  19. 川普终止与加拿大的贸易谈判
  20. 【唐青看时事】美伊打仗演戏 中南海也演戏
  21. 中国这一关键指标暴跌
  22. 美最高法院支持奥巴马医改覆盖预防性健保
  23. 川普喊话中国多买美国石油 中国为何不愿意?
  24. 台湾将对中国啤酒和钢铁课征反倾销税
  25. 川普赞新唐人大纪元是很棒的团体
  26. 白宫:非法居留者若不按时离境将被重罚
  27. 苗华被免去中共中央军委委员职务
  28. 吹哨人罗帅宇 揭露中共活摘器官的罪恶黑幕
  29. 人大常委会表决通过新《治安管理处罚法》
  30. 沈星忆蔡澜:死亡带走他的人 却带不走留给世间的味道
  31. 张佃虎,被查
  32. 丰田销量连三月创新高 美日中市场需求强劲
  33. 曾庆红用“三尸脑神丸”控制上海帮
  34. 清华学霸硅谷杀妻案庭审:前女友揭露20年情感拉锯战
  35. 哈尔滨高温大学生楼道睡觉 吁安空调被提醒防境外势力
  36. 加国女富豪拿下The Bay首店钥匙
  37. 贝索斯4000万欧元婚礼开场,川普受邀未出席
  38. 中国组织通过日本走私芬太尼?日官员回应
  39. 触底回升,屋仑租金仍深跌20%
  40. 北京驾车撞9童案 肇事驾驶被传夫妻口角拿孩童泄愤
  41. 美国5月核心PCE物价环比上涨0.2%
  42. 蔡澜遗作今天见报:最近总喜欢回忆小时候的事情
  43. 拥北大清华牛津学位 中国学霸送外卖引热议
  44. 萧美琴去年访问捷克遭中共策画攻击 引发强烈谴责
  45. 中国网民投诉:DeepSeek输出错误信息
  46. 中国充电宝安全危机 欲大规模召回 快递拒收
  47. 川普集团悄悄撤下“美国制造”手机承诺
  48. 金山159亿预算通过,聚焦城市复苏
  49. 杨瀚森入选NBA背后:他为何能在高顺位被选中?
  50. 美国消费者支出5月下滑 通胀增幅保持温和
  51. 白宫称有关下届美联储主席人选的所有决定都不迫切
  52. 最高法院允许川普部分执行出生公民权命令
  53. 欧元维持0.2%涨幅
  54. 中国“小刑法”修订三审 曾拟列“伤害民族感情罪”
  55. 美防长大发雷霆 怒斥福克斯前同事“最糟糕的记者”
  56. 高院放行限制出生公民权行政令 川普高呼“巨大胜利”
  57. 伊朗外长承认核设施遭美伊空袭严重破坏
  58. 大陆职场35岁失业 中年精英“人间蒸发”
  59. 25岁妹子买房圆梦,却成“最糟糕的决定”
  60. 川普促国会批准大而美法案 参院放眼周末表决