姚班李忆唐：让人形机器人不再依赖高质量数据-墙外头条

CMU×Meta 联手，姚班李忆唐最新论文成果。

让人形机器人真正走出实验室，一直是这个领域最难的挑战。

仿真里的机器人往往动作流畅、执行准确，但一旦来到现实世界，很多看似强大的方法都会因为环境差异而迅速失效。地面摩擦稍微变一下、身体负载多一点、传感器噪声大一些，甚至只是被人轻轻推一把，机器人就可能动作僵硬、站不稳甚至直接倒下。能不能让机器人做到不依赖精细规则、不依赖昂贵数据，也能在真实场景中保持稳定、自然和可靠，这是近年来研究者们越来越关注的问题。

而最近 CMU 和 Meta 研究团队共同提出，清华姚班李忆唐为第一作者一篇论文引起了广泛关注。这个研究项目尝试用一种更统一更朴素的方式来训练机器人，让模型在大规模仿真中通过无监督交互自己积累经验，再把奖励、姿态、动作序列等不同形式的任务提示一并压缩到同一个潜在空间中。

通过这种设计，机器人不需要针对每个任务反复训练，只要生成合适的潜在向量，就能在现实环境中零样本执行动作，并能在面对扰动或条件变化时迅速恢复稳定表现。

这项工作的亮点不在于某一个技巧，而在于它让机器人在真实世界中的表现第一次呈现出一种自然的连贯性。例如它能像人一样应对推搡，能从摔倒中顺势滚动再站起来，能在噪声很大的动作序列下依然跟随指令，还能在负载或摩擦突然变化时，仅通过潜在空间搜索就重新找回稳定动作。相比传统需要大量规则、脚本和专门训练任务的做法，这种方式显得更直接也更通用。

论文地址：https://arxiv.org/pdf/2511.04131

从仿真到现实的跨域能力

论文的实验结果可以分成三大部分：在仿真环境里的零样本测试、在真实机器人上的零样本部署，以及在特殊情况下利用很少的数据进行快速适应。整体来看，这些实验共同展示了 BFM Zero 的泛化能力、鲁棒性和可扩展性。

在仿真阶段，研究者主要使用 Isaac 和 Mujoco 两种物理模拟环境对模型进行全面测试。这两个环境的物理特性差异较大，因此能很好地检验策略是否依赖某一种特定物理设定。

实验任务包括三类：动作跟踪、目标姿态到达以及奖励驱动的行为生成。在动作跟踪方面，模型在 Isaac 环境中加入大量物理随机化后，虽然不如理想情况下那样精准，但误差只略有上升，属于能接受的小幅变化。

而当把模型直接放进物理规律明显不同的 Mujoco 中时，它的表现依然保持在一个稳定水平，性能下降控制在百分之七以内，这说明模型学到的不是某个环境的“技巧”，而是一种具有普适性的运动规律。

在奖励优化任务中，研究者让模型根据不同奖励定义，在没有特定训练的情况下自动推断应该执行的行为。这类任务的难点在于奖励往往很稀疏，且目标多样。

例如某些奖励要求机器人以指定速度朝某方向移动，但由于物理随机化导致状态分布变得复杂，有些任务会出现明显波动，甚至个别情况表现很差。

这并不是模型本身退化，而是推断奖励时依赖 replay buffer 的随机采样，加上物理扰动让数据更加分散。这种现象恰恰证明模型确实在面对复杂多变的条件，而不是在一个“干净环境”里取巧。

对于目标姿态到达任务，模型表现得更为稳健。无论目标姿态是否在训练数据中出现过，它都能平稳地向目标靠拢，不会出现剧烈抖动或乱蹦乱跳的异常行为。更关键的是，即便从 AMASS 这类完全不同的动作库中取姿态，模型也能成功完成，这说明其潜在空间不仅能覆盖训练数据，还能扩展到数据之外。

研究者甚至直接取 AMASS 中的动作片段让模型跟随，这些动作的风格可能与训练用的 LAFAN1 数据差得很远，但模型照样能执行，说明潜在空间已经把这些动作映射到同一个“可控行为区域”中，风格差异已经不是障碍。

当模型被部署到真实的 Unitree G1 humanoid 上时，它的零样本能力表现得更为直观和令人印象深刻。在动作跟踪任务中，机器人不仅能走路、转身，还能做较复杂的舞蹈动作、运动动作甚至格斗姿态。

更重要的是当它失稳时，不会像传统机器人那样僵硬或者直接倒下，而是像人一样进行自然的调整，例如重心偏移、撑地、滚动缓冲等，然后重新站起来继续任务。

这种自然的恢复动作完全来自策略本身的结构化潜在空间与风格约束，并不是单独训练“摔倒恢复”之类的技能。甚至在给它用于跟踪的动作是从单目视频估计出来的、质量很差的动作序列时，它依然能平稳跟随，说明模型对输入质量有很强的容错能力。

在目标姿态到达任务中，研究者随机采样了大量目标姿态，要求机器人按照顺序逐一到达。机器人在姿态之间切换时动作十分平滑，不需要人为添加插值或过渡动作，这说明其内部潜在空间具有天然的连续性。如果有些姿态本身不可能在现实中精确实现（例如关节角度超出极限），机器人会自动找到一个最接近同时又自然、安全的姿态，而不是硬要模仿导致摔倒或抽搐。

在奖励优化任务中，研究者通过各种奖励信号，让机器人自动生成对应行为。例如让它降低骨盆高度，它就会坐下或蹲起；奖励手部高度，它就会举手；奖励速度，它就会移动或转向。这些不同奖励还能组合，例如让它一边倒退一边抬手。

这种可组合性意味着未来可以通过语言描述需求，再把语言解析成奖励，就能让机器人自动“理解”要做什么。更有趣的是，在相同奖励下，通过不同 replay buffer 子样本生成的潜在表达会略有不同，从而得到不同风格的动作。这说明策略空间本身是多模态的，存在多个可行解，而不是一个死板的最优动作。

在真实环境中面对巨大外力干扰时，机器人表现出极高的柔顺性和稳定性。当被推搡、踢击、拉倒时，它不会简单僵硬反抗，而会以柔和方式吸收冲击，例如后退几步缓冲重心、调整手臂姿势保持平衡等。

即便被完全摔倒在地，它也能通过自然流畅的动作爬起，然后回到原本任务，比如继续恢复站姿或目标姿态。这些恢复动作不是硬性编写的，而是策略在潜在空间中自然表达出来的，这让机器人显得更“像人”。

最后，研究者展示了模型的快速适应能力。在适应过程中并不需要调整网络权重，只需要针对新情况对潜在向量进行优化就行。第一个适应案例是在机器人 torso 上增加四公斤负载。原本零样本 latent 并不足以支撑单腿站立，但通过二十次交叉熵优化迭代后即可找到一个新的潜在向量，使机器人能在带载情况下稳定站立十五秒以上，而且优化结果直接迁移到真实机器人上也能成功。

第二个案例是摩擦变化导致跳跃轨迹不稳定。研究者通过双重退火和采样方法优化潜在向量序列，最终使轨迹误差降低了近三成，整体动作更稳定。这个过程不依赖重新训练模型，而完全依赖潜在空间的灵活性。

通往通用行为模型的三步框架

总的来说这项研究的实验流程可以分成三个阶段，分别是无监督预训练、零样本推理以及少量样本适应。

研究者希望让机器人在面对不同类型的任务时，不必依赖多套不同的训练方式，而是通过同一个潜在空间表达就能理解任务、生成动作，并且在条件变化时仍能保持稳定表现。这样的设计不仅让机器人在训练阶段更加统一，也使后续的实际部署更加灵活。

在无监督预训练阶段，模型需要在没有明确任务奖励的情况下，通过与大量仿真环境的互动积累经验。为了让机器人能够应对多种类型的任务，研究者构建了一个统一的潜在空间，把奖励、目标姿态和动作序列等信息全部映射到同一种潜在表示中。

这个潜在空间的构建依赖 forward-backward 方法，它能让机器人通过观察自身轨迹或任务提示，推断出对应的潜在向量。为了让模型拥有足够广的经验基础，训练过程中使用了 1024 个并行的 Isaac 物理模拟环境。这些环境以高频率运行，模拟了全身关节的动力学、地面接触的摩擦特性以及重力的变化规律。整个训练过程中，模型累计获得超过五百万条交互样本，使其形成较为全面的行为经验库。

除了大量的环境经验，训练过程还引入了丰富的物理随机化。研究者会在仿真过程中随机改变机器人各个部位的质量分布、调整地面的摩擦系数、施加随机外力、改变身体姿态初始状态，并加入传感器噪声。

这些随机化设置逼近真实世界的不确定性，使得训练出的策略在现实部署时不会因为环境与仿真略有差异就崩溃。同时，为了让机器人动作更符合人体特征，研究者还引入了动作数据集作为风格参考，通过风格判别器让策略在生成动作时保留自然动作的结构。例如手臂的摆动、身体的重心变化都会因为风格约束显得更贴近人类动作。

为了避免策略学到潜在危险动作，训练中还加入硬件相关的安全约束。例如限制关节角度范围、防止与地面发生奇怪的碰撞、限制身体偏移过大等。这些辅助奖励确保模型在庞大的训练空间中不会偏向那些虽然有效但不安全的动作模式，也保证它在未来的真实实验中不会损伤机器人硬件。

在零样本推理阶段，模型已经具备解释不同任务提示的能力，因此不再需要继续训练其网络结构。当它接收到新的任务时，只需要根据任务类型生成对应的潜在向量 z。这种向量能够明确表达任务需求，策略网络根据它就能生成相应动作。

如果任务是基于奖励，那么潜在向量会从 replay buffer 的经验中，通过奖励信号与 backward embedding 的关系推断出来。如果任务是姿态到达，那么研究者直接将目标状态输入 backward embedding 生成潜在向量。而在动作跟踪任务中，模型会把未来几个时间步的目标动作都嵌入潜在空间，生成一段连续的潜在向量序列，再逐步执行。

从效果上看，这意味着机器人不需要针对每个任务重新训练，只要能生成合适的潜在向量，它就能直接执行动作、移动到目标位置或根据奖励调整行为。

在少量样本适应阶段，模型面对的是训练中没有遇到的新条件，例如突然增加的负载、变化的地面摩擦系数预测不到的动力学变化等。为了让机器人在现实中快速恢复性能，研究者不修改网络本身，而是在潜在空间中搜索更适合新条件的向量。

由于潜在空间的表达能力足够强，只要找到合适的向量，机器人就能重新恢复稳定表现。在单一姿态任务中，研究者采用交叉熵优化方法，通过不断尝试不同潜在向量并评估其表现，逐步找到最优解。

在动态轨迹任务中，则使用采样式的双重退火策略，通过不断扰动与收敛搜索潜在向量序列，使机器人的运动轨迹重新稳定下来。因为这种适应过程不需要大量数据，成本低，收敛快，非常适合现实场景中的快速调整需求。

整体来看，这三个阶段共同构成了模型训练与部署的完整路径：从在多样化环境中学习通用动作结构，到在实际任务中无需训练直接执行，再到遇到特殊情况时利用少量数据进行微调，使机器人在复杂环境下表现出良好的泛化能力和适应能力。

通用化的关键一步

这项研究的意义体现在多个方面，对未来的人形机器人发展具有重要推动作用。

首先，它展示了无监督强化学习也可以在真实的人形机器人上取得效果。过去成功让人形机器人完成复杂动作的做法，大多依赖大量模仿数据或精心设计的任务奖励，而这项工作证明，即使没有明确奖励，也没有精细标注的动作轨迹，机器人仍然能在大规模仿真中通过探索和风格学习形成可泛化的行为能力。这让人们看到，人形机器人不一定需要昂贵的数据成本，也能学会稳定而丰富的运动技能。

其次，该方法生成的动作在自然性和柔顺性上有明显提升。传统的人形机器人在面对外力时往往表现得非常僵硬，只能做出硬性的支撑动作，一旦外力方向稍有变化就可能失稳。而本方法训练出的策略在遇到扰动时会呈现更连贯、更平滑的反应，例如轻微调整重心、改变步伐节奏、自然地把身体稳定下来。

即使受到较大推搡，机器人也能以柔和而不突兀的方式处理，这种表现更接近人类的动作稳定机制。这说明模型在潜在空间中学到的运动规律具有内在的协调性，而不是简单的机械式纠正。

再者，这一方法为未来构建能被提示控制、能理解泛化任务意图的人形机器人打下基础。由于所有行为都被统一映射到潜在空间，机器人可以依靠潜在向量组合和调整行为。

未来只需要给出高层的任务描述，例如目标姿态、整体意图或者奖励偏好，机器人就能自动组织出相应的动作，而不需要为每个任务重新训练专用策略。这种设计向“行为级基础模型”迈出了一步，让机器人变得更容易扩展、更容易控制，也更加贴近通用智能的目标。

同时，该方法具备强大的现实适应能力。在训练中加入大量随机化，使策略在面对不同动力学条件时也能保持稳定。在真实环境里，当负载改变、地面摩擦不同、动作需求突然变化时，机器人不需要重新训练，只需要在潜在空间里稍作调整，就能迅速恢复到可靠的表现。这使得模型在现实环境中的可用性明显提升，能够更好地应对复杂多变的物理条件。

最后，这项研究摆脱了对高质量动作捕捉数据的依赖。过去想让机器人动作看起来自然，需要使用专业设备收集大量高精度人体动作数据，成本极高。而这里使用的无标注动作序列就足以让模型学到人体动作的整体风格，既减少数据采集难度，也让训练更加灵活。

综合来看，这项工作不仅提供了一套在仿真与现实之间高度一致的训练方法，还构建了一个具备泛化、自然性、稳定性与适应性的潜在行为空间，为未来更智能、更通用的人形机器人奠定了基础。