英伟达机器人跳APT舞惊艳全网,科比C罗完美复刻-墙外头条

【导读】机器人界“球星”竟被CMU英伟达搞出来了！科比后仰跳投、C罗、詹皇霸气庆祝动作皆被完美复刻。2030年，我们将会看到一场人形机器人奥运会盛宴。

机器人版科比、詹皇、C罗真的来了！

只见“科比”后仰跳投，在赛场上大杀四方。

“C罗”和“詹姆斯”也纷纷展示了自己的招牌庆祝动作。

以上这些还只是开胃菜，这款人形机器人还会侧跳、前跳、前踢、右踢，甚至能够完成深蹲、腿部拉伸等高难度动作。

更惊艳的是，它还会跳APT舞，非常嗨皮。

比起波士顿动力Altas，如今人形机器人早已进化到人们难以想象的样子。正如Figure创始人所言，人形机器人iPhone时刻即将到来。

那么，能够成为“机器人界的科比”，究竟是用了什么魔法？

来自CMU和英伟达的华人研究团队重磅提出ASAP，一个“real2sim2real”模型，能让人形机器人掌握非常流畅且动感的全身控制动作。

项目主页：https://agile.human2humanoid.com/

论文地址：https://arxiv.org/abs/2502.01143

开源项目：https://github.com/LeCAR-Lab/ASAP

它包含了两大阶段——预训练和后训练。

在第一个阶段中，通过重定向的人体数据，在仿真环境中预训练运动跟踪策略。

在第二阶段，将这些策略部署到现实世界，并收集真实世界数据，训练一个delta动作模型，来弥补动力学差异。

然后，ASAP把这个delta动作模型集成到仿真器中，对预训练策略进行微调，让它和现实世界的动力学更匹配。

英伟达高级研究科学家Jim Fan激动地表示，我们通过RL让人形机器人成功模仿C罗、詹姆斯和科比！

这些神经网络模型，正在英伟达GEAR实验室的真实硬件平台上运行。

在网上看到的多数机器人演示视频都是经过加速处理的，而我们特意“放慢动作速度”，让你能清晰观赏每个流畅的动作细节。

我们提出的ASAP模型采用了“真实→仿真→真实”方法，成功实现了人形机器人全身控制所需的超平滑动态运动。

我们首先在仿真环境对机器人进行预训练，但面临众所周知的仿真与现实差距：人工设计的物理方程难以准确模拟真实世界的动力学特性。

我们的解决方案简明有效：将预训练策略部署到实体机器人采集数据，随后在仿真环境回放动作记录。虽然回放过程必然产生偏差，但这些误差恰恰成为修正物理差异的关键数据源。通过额外神经网络学习差异参数，本质上是对传统物理引擎进行“动态校准”，使机器人能依托GPU的并行计算能力，在仿真环境中获得近乎真实的大规模训练体验。

未来属于混合仿真时代：既继承经典仿真引擎数十年锤炼的精准优势，又融合现代神经网络捕捉复杂现实世界的超凡能力，实现两者的协同进化。

一直以来，sim2real是实现空间与具身智能的主要路径之一，被广泛应用在机器人仿真评估当中。

而real2sim2real直接打破了繁琐的动作微调的难题，弥合sim2real的差距，让机器人能够模仿各种类人的动作。

Jim Fan对此畅想道，2030年的人形机器人奥运会一定会是一场盛宴！

有网友期待地表示，真想看看它们打拳击的表现。

01 ASAP，机器人奥运会不远了

由于仿真环境和现实世界的动力学差异，人形机器人想实现敏捷又协调的全身运动仍是巨大的挑战。

现有方法，如系统识别（SysID）和域随机化（DR）通常要花大量时间调整参数，或者生成的策略过于保守，动作不够敏捷。

本文提出了ASAP（Aligning Simulation and Real Physics）是一个两阶段框架，旨在解决动力学不匹配问题，实现敏捷的人形机器人全身动作。

ASAP实现了许多以前很难做到的高难度动作，展现出delta动作学习在缩小仿真与现实动力学差距方面的潜力。

ASAP为“sim-to-real”提供了一个很有前景的方案，为开发更灵活、更敏捷的人形机器人指明了方向。

ASAP具体步骤如下：

运动跟踪预训练与真实轨迹收集：先从真人视频中提取动作并重定向到机器人上，预训练多个运动跟踪策略，生成真实世界的运动轨迹。

Delta动作模型训练：基于真实世界轨迹数据，训练Delta动作模型，缩小仿真状态与真实世界状态之间的差异。

策略微调：Delta动作模型训练完成后，将其集成到仿真器中，使仿真器能匹配真实世界的物理特性，随后对之前预训练的运动跟踪策略进行微调。

真实世界部署：最后，直接在真实环境中部署微调后的策略，此时就不再需要Delta动作模型了。

02 两阶段：预训练+后训练

ASAP包含两个阶段：预训练阶段和后训练阶段。

在预训练阶段，研究团队将真人运动视频作为数据来源，在仿真环境中训练动作跟踪策略。

先将这些运动数据重定向到人形机器人上，然后训练一个基于相位条件的运动跟踪策略，让机器人模仿重定向后的动作。然而，如果将这一策略部署到真实硬件上，由于动力学差异，机器人的性能会下降。

为解决这一问题，在后训练阶段需要收集真实世界的运行数据，包括本体感知状态，以及由动作捕捉系统记录的位置信息。随后，在仿真环境中回放这些数据，动力学差异就会以跟踪误差的形式表现出来。

接着，训练一个delta动作模型，通过缩小真实世界和仿真状态的差异，学习如何补偿这些偏差。这个模型实际上是动力学误差的修正项。

最后，研究者借助delta动作模型对预训练的策略进行微调，使其能够更好地适应真实世界的物理环境，从而实现更稳定、敏捷的运动控制。

总的来说，这项研究的贡献如下：

提出ASAP框架：运用强化学习和真实世界的数据来训练delta动作模型，有效缩小了仿真与现实之间的差距。

成功在真实环境部署全身控制策略，实现了不少以前人形机器人难以做到的动作。

仿真和现实环境中的大量实验表明，ASAP能够有效减少动力学不匹配问题，让机器人做出高度敏捷的动作，同时显著降低运动跟踪误差。

为了促进不同仿真器之间的平滑迁移，研究者开发并开源了一个多仿真器训练与评估代码库，以加快后续研究。

03 评估

评估中，研究人员针对三种策略迁移进行了广泛的实验研究：IsaacGym到IsaacSim、IsaacGym到Genesis，以及 IsaacGym到真实世界的Unitree G1人形机器人。

接下来，他们一共回答了三个问题。

Q1：ASAP能否优于其他基线方法，以补偿动力学失配问题？

表III中的定量结果表明，ASAP在所有重放动作长度上都持续优于OpenLoop基线，实现了更低的Eg-mpjpe和Empjpe值，这表明与测试环境轨迹的对齐程度更好。

虽然SysID有助于解决短期动力学差距，但由于累积误差的增加，它在长期场景中表现不佳。

DeltaDynamics在长期场景中相比SysID和OpenLoop有所改进，但存在过拟合问题，这从下图5中随时间放大的级联误差可以看出。

然而，ASAP通过学习有效弥合动力学差距的残差策略，展示出了优越的泛化能力。

同时，作者在Genesis模拟器中也观察到了类似的趋势，ASAP相对于基线在所有指标上都取得了显著改进。

这些结果强调了学习增量动作模型，在减少物理差距和改善开环重放（open-loop replay）性能方面的有效性。

Q2：ASAP能否在策略微调方面，优于SysID和Delta Dynamics？

为了解决问题2，研究人员评估了不同方法在微调强化学习策略，以提高测试环境性能方面的有效性。

如表IV所示，ASAP在两个模拟器（IsaacSim和Genesis）的所有难度级别（简单、中等和困难）中都持续优于Vanilla、SysID和DeltaDynamics等基线方法。

对于简单级别，ASAP在IsaacSim（Eg-mpjpe=106和Empjpe=44.3）和Genesis（Eg-mpjpe=125和Empjpe=73.5）中都达到了最低的Eg-mpjpe和Empjpe，同时具有最小的加速度（Eacc）和速度（Evel）误差。

在更具挑战性的任务中，如困难级别，最新方法的表现依旧出色，显著降低了运动跟踪误差。

例如，在Genesis中，它实现了Eg-mpjpe=129和Empjpe=77.0，大幅优于SysID和DeltaDynamics。

此外，ASAP在两个模拟器中始终保持100%的成功率，而DeltaDynamics在更困难的环境中的成功率较低。

为了进一步说明ASAP的优势，研究人员在图7中提供了逐步可视化比较，对比了ASAP与未经微调直接部署的强化学习策略。

这些可视化结果表明，ASAP成功适应了新的动力学环境并保持稳定的跟踪性能，而基线方法则随时间累积误差，导致跟踪能力下降。

这些结果突显了，新方法在解决仿真到现实差距方面的鲁棒性和适应性，同时防止过拟合和利用。

研究结果验证了ASAP是一个有效的范式，可以提高闭环性能并确保在复杂的现实场景中可靠部署。

Q3：ASAP是否适用于sim2real迁移？

针对第三个问题，研究人员在真实的Unitree G1机器人上验证了ASAP的有效性。

由于传感器输入噪声、机器人建模不准确和执行器差异等因素，仿真到现实的差距比模拟器之间的差异更为显著。

为了评估ASAP在解决这些差距方面的有效性，他们在两个代表性的运动跟踪任务（踢腿和“Silencer”）中比较了ASAP与Vanilla基线的闭环性能，这些任务中存在明显的仿真到现实差距。

为了展示所学习的增量动作模型对分布外运动的泛化能力，作者还对勒布朗·詹姆斯“Silencer”动作进行了策略微调，如图1和图8所示。

结果表明，ASAP在分布内和分布外的人形机器人运动跟踪任务中都优于基线方法，在所有关键指标（Eg-mpjpe、Empjpe、Eacc和Evel）上都实现了显著的跟踪误差减少。

这些发现突显了ASAP在改进敏捷人形机器人运动跟踪的仿真到现实迁移方面的有效性。

再接下来，研究人员就三个核心问题来全面分析ASAP。

首先是，如何最好地训练ASAP的增量动作模型？

具体来说，他们研究了数据集大小、训练时域和动作范数权重的影响，评估它们对开环和闭环性能的影响，如下图10所示，给出了所有因素下的实验结果。

其次，如何最好地使用ASAP的增量动作模型？

如下图11所示，强化学习微调在部署过程中实现了最低的跟踪误差，优于免训练方法。

两种无强化学习的方法都具有短视性，并且存在分布外问题，这限制了它们在现实世界中的适用性。

Q6：ASAP为什么有效以及如何发挥作用？

研究人员验证了ASAP优于基于随机动作噪声的微调，并可视化了Delta动作模型在各个关节上的平均输出幅度。

调整噪声强度参数，能降低全局跟踪误差（MPJPE）。

图13可视化了在IsaacSim训练得到的Delta动作模型的平均输出，结果揭示了不同关节的动力学误差并不均匀。踝关节和膝关节的误差最显著。

04 作者介绍

Tairan He（何泰然）

共同一作Tairan He是卡内基梅隆大学机器人研究所的二年级博士生，由Guanya Shi（石冠亚）和Changliu Liu（刘畅流）。同时，也是NVIDIA GEAR小组的成员，该小组由Jim Fan和Yuke Zhu领导。

此前，他在上海交通大学获得计算机科学学士学位，导师是Weinan Zhang（张伟楠）。并曾在微软亚洲研究院工作过一段时间。

他的研究目标是打造能改善每个人生活质量的机器人；重点是如何为机器人构建数据飞轮，使其获得媲美人类的运动能力和语义理解能力，以及如何让机器人既能安全可靠，又能灵活适应各种环境，具备通用性和敏捷性来完成各类实用任务；采用的是随计算能力和数据规模扩展的机器学习方法。

Jiawei Gao（高嘉伟）

共同一作Jiawei Gao目前就读于CMU。他曾获得了清华学士学位，曾与Gao Huang教授、Jiangmiao Pang博士、Guanya Shi教授合作，参与了强化学习算法及其在机器人领域应用的相关项目。

他一直在思考人类智能的起源，以及如何构建能够像人类一样学习和推理的机器。为此，他希望致力于研究通用决策算法，使机器能够在复杂的物理世界中进行交互、学习和适应。

除了研究兴趣外，Jiawei Gao也热衷于历史、哲学和社会学。个人学习钢琴已有十年，是西方古典音乐的忠实爱好者，贝多芬和马勒是我最喜欢的作曲家。同时，他也喜欢旅行和摄影。

Wenli Xiao

共同一作Wenli Xiao是卡内基梅隆大学机器人研究所（MSR）的硕士生，由Guanya Shi教授和John Dolan教授指导。

他目前在NVIDIA GEAR实验室担任研究实习生，与Jim Fan博士和Yuke Zhu教授一起研究人形机器人基础模型。

此前，他在香港中文大学（深圳）获得电子信息工程专业学士学位。

Yuanhang Zhang（张远航）

共同一作Yuanhang Zhang目前是CMU机器人研究所（CMU RI）的硕士生，目前在LeCAR Lab研究，导师是Guanya Shi教授。

此前，他曾在上海交通大学获得了工学学士学位，期间Hesheng Wang教授Danping Zou教授指导。

本科期间，他担任SJTU VEX 机器人俱乐部的编程组负责人，并参与了无人车（UV）和无人机（UAV）相关的各类竞赛。

他的研究兴趣包括机器人学、机器学习和最优控制。目前，他本人的研究方向是人形机器人和空中操控。