Yann LeCun离开Meta后首篇论文?

2025-12-07 11:25:14 · chineseheadlinenews.com · 来源: 机器之心

还记得《黑客帝国》里 Neo 通过脑机接口瞬间学会功夫的场景吗?

现在,机器人离这一天也不远了。想象一下,你只需在电脑上输入一句提示词:“一个人在打太极”,AI 视频模型(比如 Wan2.1 或 Sora)立刻生成一段视频,而旁边的机器人看完这段视频,竟然就能零样本(Zero-shot)地把这套动作在物理世界中完美复现出来!

没错,这就是来自伯克利、纽约大学和约翰?开普勒林茨大学的一项最新论文想要实现的未来。

研究人员提出了一种名为GenMimic的新方法,让机器人拥有了“模仿大师”的技能,甚至即便 AI 生成的视频里人物动作有些变形、甚至出现“鬼畜”般的噪声,机器人也能去伪存真,提取出核心动作逻辑,稳稳当当地在现实中动起来。

论文标题:From Generated Human Videos to Physically Plausible Robot Trajectories

论文地址:https://arxiv.org/abs/2512.05094v1

项目地址:https://genmimic.github.io/

已经离开 Meta、开始创业的图灵奖得主 Yann LeCun 也是该研究的四位共同导师之一。有趣的是,在这篇论文中,Yann LeCun 的所属机构已经没有了 Meta。这应该是他离开 Meta 后发布的第一篇论文?不过,其所属机构也尚未标注其新创业公司,仅有纽约大学。

该论文有四位共一作者:James Ni、Zekai Wang、Wei Lin、Amir Bar。其研究的核心问题是机器人领域一个关键问题:

人形机器人如何能够零样本(zero-shot)地执行生成视频中的人类动作?

这项研究有四大贡献:

提出了首个使人形机器人能够执行由视频生成模型生成的动作的通用框架。

提出了 GenMimic,这是一种新的强化学习策略,使用对称正则化和选择性加权的 3D 关键点奖励进行训练,尽管仅在现有的动作捕捉数据上训练,却能泛化到充满噪声的合成视频。

利用 Wan2.1 和 Cosmos-Predict2 整理了合成人类动作数据集 GenMimicBench,建立了评估零样本泛化和策略鲁棒性的可扩展基准。

在仿真和真实世界实验中广泛验证了新提出的方法。在仿真中,该团队提供了详细的消融实验,并展示了相比强基线模型的显著改进。他们还进一步在宇树 G1 机器人上确认了新方法的可行性,展示了连贯且物理稳定的动作。

下面我们更详细地了解一下这项研究成果。

GenMimicBench 数据集

为了评估人形机器人控制策略在不同视觉和动作分布下的零样本泛化能力,该团队引入了 GenMimicBench,这是一个包含 428 个生成视频的合成人类动作数据集。

该数据集是使用两个最先进的视频生成模型 Wan2.1-VACE-14B 和 Cosmos-Predict2-14BSample-GR00T-Dreams-GR1 创建的。

如图 2 所示,每个序列都是从初始帧和指定预期动作的文本提示生成的,从而实现了主体身份、视角和动作的系统性变化。

总体而言,GenMimicBench 涵盖了广泛的主体、环境和动作类型,从简单的手势到多步骤组合动作及物体交互行为。

Wan2.1 视频:受控室内场景。 GenMimicBench 的很大一部分是使用 Wan2.1 从 NTU RGB+D 帧生成的。这些片段提供了清晰、结构化的室内环境,并具有同步的前视、左视和右视摄像机视角。该团队包括了五名具有不同人口统计学特征、身体比例和着装风格的主体,确保外观的多样性,同时保持场景几何的一致性。动作涵盖四个结构化类别。这产生了 217 个多视角室内视频,捕捉了形态、视角和动作组合的细微变化。

Cosmos-Predict2 视频:网络风格场景。 为了以更大的多样性补充这些受控场景,该团队还使用 Cosmos-Predict2 生成了以 PennAction 帧为条件的视频。这些片段反映了自然场景下 YouTube 视频的特征:杂乱的场景、多变的摄像机运动、不均匀的光照和现实世界的物体布局。该子集包括 211 个视频,主要由八个不同的主体执行简单的手势(例如,摸头、竖大拇指)以及一系列物体交互行为,如开门、举书或哑铃,以及操作日常家居用品。这一部分使策略暴露于受控数据集中所缺乏的现实复杂性,为评估在自然环境中的鲁棒性提供了一个具有挑战性的测试平台。

总计,GenMimicBench 提供了一个包含 428 个高方差合成动作序列的统一集合,涵盖了结构化的室内场景和多样化的现实世界视频语境。

通过将受控动作与多样化的自然人类动作相结合,GenMimicBench 建立了一个全面的基准,可用于评估在视觉、形态和动作分布偏移下的人形机器人策略性能。该数据集专门设计用于压力测试鲁棒性,使其非常适合评估依赖于从生成视频中获取的噪声或不完美动作重建的策略。

从生成的视频到人形机器人动作

为了解决从生成视频中执行人形机器人动作的挑战,该团队提出了一个基于 4D 重建的两阶段流程,并提出了一个新的 GenMimic 跟踪策略。图 3 展示了方法概况。

两阶段流程

第一阶段:从像素到 4D 人形机器人重建。

给定一个生成的输入 RGB 视频,该团队使用最先进的人类重建模型来检测和提取逐帧的全局姿态和 SMPL 参数。由于形态不匹配,生成的 SMPL 轨迹无法直接用于人形机器人。因此,该团队选择将 SMPL 轨迹重定向到机器人的关节空间,该空间结合逐帧的全局姿态可恢复机器人空间中的全局 3D 关键点。

第二阶段:从 4D 人形机器人到动作。

为了正确地泛化到未见过的人类动作,该团队的策略必须对输入中的变化和噪声具有鲁棒性。

为了实现这一点,该团队特意选择 3D 关键点而非关节角度,因为关键点对变化更具鲁棒性,且噪声在这种表征中更容易被观察到。

给定这些关键点和本体感知信息,该团队的跟踪策略输出物理上可实现的期望关节角度。这些期望关节角度被比例-微分 (PD) 控制器使用,输出可执行的力矩给机器人。

GenMimic 策略

如图 3 所示,从视频生成的人类动作包含噪声和形态不匹配,这使得它们偏离了训练数据的分布。

该团队表明,添加加权关键点跟踪奖励和对称增强提供了足够的鲁棒性来解决这些挑战。

加权跟踪 (Weighted Tracking)

某些关键点(例如对应于末端执行器的关键点)在任务执行和物理稳定性方面本质上比躯干或非接触关键点更为关键。因此,该团队将跟踪奖励设计为使用逐关键点误差的加权组合:

这个公式使得策略能够选择性地关注目标中最可靠和与任务最相关的方面。对于生成视频,偏向末端执行器并远离不准确的下半身会产生稳定的模仿效果。

对称损失 (Symmetry Loss)

人体表现出固有的双侧对称性,其中左侧和右侧近似为镜像。

该团队假设,由于这种对称性作为一种强大的物理归纳偏置,一个显式学习并利用左右关键点之间对称相关性的策略,可以对生成视频中的逐关键点噪声实现更强的鲁棒性。

为了实现这一点,该团队在标准 PPO 训练目标中加入了一个辅助对称损失 L_SYM,并带有权重系数 λ_SYM:

策略学习的细节(包括训练数据、奖励和域随机化)请参阅原论文。

实验表现

该团队在 GenMimicBench 和真实的 23-DoF 宇树 G1 人形机器人上进行了实验。实现细节方面,训练在 IsaacGym 中进行,样本量超过 15 亿,使用了四个 NVIDIA RTX 4090 GPU。部署使用单个 NVIDIA 4060 移动版 GPU。更多细节请访问原论文。

仿真实验

该团队在 GenMimicBench 数据集上对比了该团队的方法与强基线模型。结果见表 1。

如表 1 所示,GenMimic 优于现有基线。GenMimic 学生模型获得了比 GMT 和 TWIST 更高的 SR 和 MPKPE-NT,而 GenMimic 教师模型获得了比 BeyondMimic 和 TWIST 更高的 SR、MPKPE 和 MPKPE-NT。所有 unprivileged 策略都表现出较高的全局误差,突显了从生成视频中进行零样本模仿的挑战。

真实世界实验

该团队成功地将策略部署在 23-DoF 的 G1 人形机器人上,展示了对生成视频中人类动作的物理复现。

该团队总共推演了 43 个动作,并在表 2 中报告了视觉成功率 (VSR)。与仅衡量偏离基准真值的定量仿真指标不同,VSR 评估执行的动作在视觉上是否与生成视频相似。该团队将任何过度的跌跌撞撞或无法在视觉上跟随关键关键点(如手或脚)的情况视为失败。

该团队的策略成功复现了广泛的上半身动作,包括挥手、指向、伸展及其序列组合。将这些动作与下半身运动组合会显著增加难度。对于步进组合,策略能可靠地跟随上半身动作,但无法一致地完成迈步或抬腿。对于转身组合,策略能可靠地达到期望的方向,但经常会跌跌撞撞。

该团队猜想,这些挑战源于不准确或物理上不可行的动作线索,这个问题或可通过向 3D 目标关键点引入加权噪声来解决。

下面展示了一些模仿示例。

该团队也执行了消融实验,详见原论文。


    24小时新闻排行榜更多>>
  1. 45岁后,这4个器官用得越“勤”越长寿
  2. 钱学森现代科学技术体系研究分会学术交流会举行
  3. 国乒击败日本队,蝉联冠军
  4. 俄副总理:俄罗斯已准备好迎接无限数量的印度技术工人
  5. 美国战略重心大转向,第一枪瞄准这个国家?
  6. 香港大火死了1500人?大量住户凭空消失
  7. 欠中国代工厂超25亿元,美知名机器人公司爆雷
  8. 52岁董卿近况曝光
  9. 13岁女孩爬冰救人,对父谴啮了个谎
  10. MIT神经科学家发现:人类与AI的逻辑惊人地重合
  11. 不只是降息?鲍威尔下周三或宣布450亿美元购债
  12. 美沉默应对日中紧张,金融时报揭内幕:日本深感失望
  13. 改造白宫 修凯旋门 川普工程留个人烙印延续崇拜
  14. 美老兵88岁仍须打工 获170万美元捐款终可退休
  15. “郑习会”将登场?
  16. 睡觉出现4种迹象,寿命可能长不了
  17. 全国首个:哈工程成立新学院
  18. 中国女性第一大癌症,不是乳腺癌,竟然是肺癌
  19. 马克龙:向泽连斯基分享访华期间会谈
  20. 小伙玩彩票一年,就中了巨额头奖
  21. 全球首颗计算成像体制低成本光学载荷成功出图
  22. 美国给欧洲划死线:2027年,接管北约大部分常规防务能力
  23. 泽连斯基称与美磋商关键措施 双方已达共识
  24. 苹果爆高管离职潮,库克去向备受关注
  25. “稀土王牌”打不倒?智库专家点出北京真正撒手锏
  26. 知情人揭露武汉女监设“疯子队”“特警队”
  27. 连环丑闻层出不穷 美战争部长面临党内外下台呼声
  28. 美国不再要求新生儿接种乙肝疫苗
  29. 美众议院通过三项议案,阻止中共对美国中小学课堂的影响
  30. 清华姚班学霸联手:逆向数学,破解50年难题
  31. Hinton最新预言刷屏:谷歌必赢,早该赢了
  32. 一位联邦政府公务员打算退休
  33. 美防长点名增加军费“模范盟友” 称搭便车自负后果
  34. AI不只取代人类?黄仁勋:连“机器人服饰设计师”都可能成真
  35. 日资深外交官出炉“中国共产党指南”应对中共霸凌
  36. 电影《芳华》解说爆红引热议 胡锡进:文革是内乱
  37. 这位水彩艺术家,画出了水彩的韵味
  38. 美乌3天会谈无明显突破
  39. 黄日华退出娱乐圈,拒绝拍戏仍捐款百万
  40. 川普重申门罗主义 美国人民掌控西半球命运
  41. 川普长子:可能放弃调停乌战
  42. Yann LeCun离开Meta后首篇论文?
  43. 中共巨婴外交暴露真面目《华尔街日报》警告世界
  44. 灵界疯了 2026预言全公开 中国最震惊
  45. 美纪念珍珠港事变84周年 首度未见幸存老兵出席
  46. 日方召见中国大使抗议军机雷达照射 高市称冷静应对
  47. 突然听劝的苹果,让人有些不太习惯
  48. 加前情报局长:高校与企业已成中国情报渗透新战场
  49. 美称与乌接近达成协议 俄却要求对部分条款彻底修改
  50. 加州州长遭讽坐姿怪异 引用AI图片反击引发争议
  51. 美国3囚凿墙用床单越狱 1人涉谋杀未遂犯仍在逃
  52. 日本女性出国卖身成风 2个月赚近百万港元再包牛郎?
  53. 伦敦希斯路机场胡椒喷雾袭击致多人伤 机场交通出现中断
  54. 日军机遭中共歼-15雷达照射 高市早苗回应
  55. 【直播】国际太空站举行指挥权交接仪式
  56. 【直播】2025年诺贝尔生理学或医学奖获奖演讲
  57. 马克龙告中共 不减对欧贸易顺差将面临关税
  58. 日媒:中共对日企出口稀土审批出现延迟
  59. 日本寿司郎进驻上海 两新店开张 顾客大排长龙
  60. 台湾指中共4海军编队集结西太平洋 专家解析