围在黄仁勋身边的人形机器人,正在进入AI时刻吗

2025-01-10 19:26:10 · chineseheadlinenews.com · 来源: 腾讯科技

北京时间1月7日,黄仁勋和14台人形机器人同时出现在2025年CES展会的舞台上。



(1月7日拉斯维加斯2025 CES大会上,黄仁勋同时与14台人形机器人登台)

这一幕似曾相识,就在2024年3月,黄仁勋曾同时与9家人形机器人亮相英伟达GTC大会的舞台。



(2024年3月,黄仁勋与9台人形机器人在英伟达GTC大会)

彼时,黄仁勋发布英伟达人形机器人通用基础模型Project GR00T,正式宣布进驻人形机器人服务商。Project GR00T就像帮助机器人变得更聪明的大脑,在GR00T的指挥之下,机器人能够理解自然语言,并通过观察人类行为模仿动作,从而适应现实环境并与之交互。

与GTC大会不同的是,黄仁勋这次在CES上重点发布的是世界基础模型开发平台Cosmos,它提供了一种简单的方法来生成大量基于物理世界的合成数据。

Cosmos可以通过文本、图像或视频的提示,生成高度仿真的虚拟世界,它基于2000万小时的视频进行训练,分为自回归模型和扩散模型两类。

与其它合成数据生成平台不同的是,Cosmos能够理解这个世界,比如它可以理解几何空间、摩擦力和重力,并且压缩“虚拟”与“现实”之间的差距。

对于具身智能而言,这是一个重要突破,因为它帮助人形机器人解决泛化道路上的最大瓶颈之一“高质量数据稀缺”问题,为人形机器人感知环境创建逼真的环境和感知物体

与黄仁勋一起出现在CES舞台上的1X、Agile Robots、Agility、Figure、傅立叶、波士顿动力等14家人形机器人,都是英伟达Cosmos平台的种子用户。

那么,在这之前,人形机器人数据采集遇到了哪些难点?Cosmos对解决这些难点产生哪些价值?

高质量数据瓶颈,成为人形机器人泛化难题

通用人形机器人,需要拥有任务泛化能力。

但目前不论是老牌人形机器人波士顿动力Atlas,还是新兴的擎天柱、Figure等,它们在实际场景的应用还停留在单点任务处理上比如,擎天柱学会了叠衣服,但是又要重新训练才能学会叠被子。也就是说,它们在完成一个任务后,不具备自主判断下一个任务要做什么的能力。

而阻碍人形机器人拥有泛化能力的最大因素,就是高质量数据的稀缺。即便Agility旗下的Digit机器人整天泡在亚马逊工厂里打工,拥有天然的丰富场景数据学习环境,它的首席技术官Pras Velagapudi依旧表示:“数据稀缺性和多变性是机器人从环境中成功学习的关键挑战。”

机器人需要高质量的数据,否则可能会导致目标误判或任务失败,甚至做出不恰当的行为。比如,一个涂抹酱汁的机器人可能会把酱汁洒一地,一个医疗手术机器人可能会用手术刀伤到人类。

为了给机器人采集到高质量数据,根据机器人是否与真实世界接触,通常会从现实世界中采集真实数据,采集方式有两种:

直接接触数据(真机数据):机器人用自己的传感器与物理世界直接交互。比如波士顿动力的液压Atlas在实验室“跑酷”,Figure02机器人在美国斯帕坦堡宝马车厂打工。

间接接触数据(人工控制数据):通过人类操作让机器人与物理世界接触并记录,比如斯坦福的炒菜机器人Aloha就是人类控制机械臂进行操控的。

对于机器人而言,最理想的数据采集方式是通过机器人本体直接触达物理世界,这种方式能让机器人准确理解真实的环境,也就是真机数据。

但采集真机数据需要付出大量时间和资金成本。

首先,必须要让机器人部署在实际环境中,但大多数人形机器人受限于运动技术水平,只能待在受限的实验室环境。

这就很难通过规模化集中化方式让机器人高效完成数据采集。就像父母们既希望孩子拥有丰富的知识面,却又将孩子关在家中闭门不出,在受限的环境里,他们无法理解外面的世界有多大。

于是,必须花费大量时间去搭建各种场景,让机器人做“题海战术”。

其次,机器人学习新技能的效率十分低下。比如,机器人学会了拿苹果,转而去学习取盘子,又要重新经过大量学习。

于是,研究人员试图寻求间接的办法,使用人力作为辅助,帮助机器人提高学习效率,也就是远程遥控,人走到哪里,机器人也可以跟着学到哪里,但这个方式的成本依旧高昂。

2024年年初爆火的炒菜机器人Aloha,采用了一个有趣的方案收集数据,基本思路是设置两个机器人手臂,让它们互相镜像,人类可以推动一个手臂,另一个手臂则执行任务,比如拿起一个积木。通过反复演示(比如50次),机器人可以学习如何完成特定任务。

尽管Aloha使用了低成本的手臂,但每个也要大约5000美元,为了完成这项训练,至少需要4个机械臂大约2万美金,而这实际上已经是比较低的成本了,通常工业手臂可能价值数十万美元。

智元机器人姜青松曾在2024年8月份智元机器人发布会上算了一笔账,智元机器人计划建立的采样厂包含100台采样机器,对应150位工人,目标是希望每个工人每天采集1000条数据,按照0.4元/条的成本计算,150位工人则意味着采样厂日均成本高达6万元。

人形机器人变得更智能,需要在更短的时间里获得更多的高质量数据。

人形机器人数据卡点,被英伟达Cosmos攻克?

为了解决低成本获得高质量数据问题,很多人开始尝试采用合成数据。

合成数据并不只在机器人场景使用,大模型、自动驾驶等许多需要训练人工智能、需要数据支持的场景都在使用合成数据。

但合成数据也存在问题,就像近亲繁殖,如果使用合成数据超过一定比例,反而会让数据质量下降。

2023年,莱斯大学和斯坦福大学的研究人员发布了一项研究,表明过度依赖合成数据进行训练可能会导致模型的质量和多样性下降。研究指出,采样偏差造成的合成数据,不能充分代表真实世界,并且会在经过多轮训练后,导致模型的多样性逐渐退化。

前OpenAI创始成员Karpathy在接受采访时表示,模型在训练时可能会出现一种“静默崩溃”的情况,简单来说,虽然单个输出看起来正常,但如果你看整个数据的分布,就会发现它缺乏多样性,变得单一。这对于合成数据生成来说是个问题,因为合成数据需要包含丰富的变化和多样性(也就是“熵”),否则就会生成一个过于单一、不真实的数据集。

因此,如何用比较低的成本,获得接近真实世界的数据,成为包括机器人在内等行业需要突破的关键。

于是就有了数字孪生,数字孪生并不是一个新概念,它用虚拟模型来“复制”一个真实物体、设备或系统,目前,数字孪生已经在制造业、医疗等领域得到了应用,但数字孪生的准确性和效果取决于所收集数据的质量。如果数据不完整、存在错误或不准确,虚拟模型的表现就会受到影响。

但作为世界模型,英伟达Cosmos平台和以往的合成数据工具都不相同,在英伟达公布的Cosmos论文中,对世界模型的描述是:

“世界基础模型就是一种根据过去发生的事和当前变化,来预测未来会怎样的工具。”



简单来说,Cosmos是一种类似“预测未来”的工具。它能把真实世界的规则整理好,根据当前的情况猜测接下来会发生什么,然后告诉自动驾驶汽车或机器人该怎么做。比如,假设前面有障碍物,模型会预测它可能移动的方向,并指导汽车或机器人做出反应。

这套工具是目前第一款专门为训练AI、自动驾驶和机器人的世界模型。

此外,黄仁勋在会场还演示了将Cosmos与英伟达Omniverse平台联合使用的功效,开发者可以基于Omniverse创建虚拟的三维场景,再叠加使用Cosmos生成与真实世界高度相似的场景,以便于开发者用于模型训练。



(左侧:Omniverse制作的虚拟仿真世界 右侧:叠加Cosmos生成的效果)

在这个过程中,Cosmos对于机器人数据瓶颈最大的帮助,是用最低的成本,来缩小虚拟数据与物理世界数据的误差。

但Cosmos生成的合成数据未必能完全代替真实数据的作用。合成数据与真实数据各有优势,它们是一种互补关系,这一点从黄仁勋和马斯克近期的观点中也可以看出。

根据TechCrunch报道,马斯克在2024年12月也发表了对于AI数据的看法,他赞同人工智能行业已经达到“数据峰值”的说法,“补充现实世界数据的唯一方法是使用合成数据”。

有趣的是,黄仁勋在2025年CES后的采访中表示,Cosmos生成的合成数据无法替代真实数据,并认为自动驾驶应该尽可能使用真实数据,并且赞赏马斯克的特斯拉汽车工厂拥有大量行驶数据。

他们一个拥有高配置的仿真数据生成平台,一个拥有丰富的自动驾驶数据资源,在坚守各自阵地的同时,却也都在欣赏着对方的领域。


    24小时新闻排行榜更多>>
  1. 杨振宁本周五告别式 传中共领导人将会出席
  2. 中共四中全会官媒合力宣染“一茬接着一茬干” 遭群讽
  3. OpenAI推出自家浏览器 挑战谷歌Chrome
  4. 伊朗高官女儿爆乳迎客,遭骂双标
  5. 传秦刚四中全会前露脸 分析:或有大事发生
  6. 越南副防长被曝访韩期间涉嫌“性骚扰”,韩方抗议
  7. 俄罗斯绝密情报 高层为习卸任准备 习近平会下台么
  8. 中国论坛:如何看中共四中全会“谣言”频传
  9. 反击北京!欧盟拟祭"杀手锏"贸易措施,报复稀土管制
  10. 【翻墙必看】习将辞军委主席传闻被热炒
  11. 经济学人:中美贸易谈判陷入“有毒境地” 原因是…
  12. 美参议员推“台湾主权象征法案”盼解除“禁旗令”
  13. 美政府停摆,4000万人下月或没钱吃饭
  14. 外国投资者被中国房地产市场套牢 难以回本
  15. 分析:九上将被清洗 证明习“反腐”失败
  16. 双普会取消!俄罗斯拒绝即刻停火令谈判蒙阴影
  17. 多款知名进口药退出中国市场 民忧国产药效
  18. 川普列与习近平见面4大议题:稀土、黄豆 还有…
  19. 四中全会敏感期 王岐山露面朱镕基“发声”
  20. AWS瘫痪这天 家电瘫痪 银行服务当机 我们有多依赖它
  21. 美科技巨头转移生产链 中美科技链分化加剧
  22. 共和党议员推动延长奥巴马医改
  23. 加拿大经济要凉,1/3企业暂停招聘
  24. H-1B收费放宽 10万签证费仅针对境外新申请者
  25. 巴黎博物馆金块被盗 中国女子涉案被起诉
  26. 美國一石三鳥 蔡奇私生子陳志覆滅 習近平又一錢袋子沒了
  27. 荷中官员就安世半导体通话 双方声明各异
  28. 专家:习近平所谓“150岁”梦想无法实现
  29. 大西洋:美国人都在交“反觉醒税” 破产也比觉醒好
  30. 鼎泰丰最赚钱,成功3祕诀
  31. 政府停摆危机加剧,4000万人或失补助
  32. 黑客攻入中共官网 称截获高层秘密会谈内容
  33. 身家904亿安徽农家子弟,重夺新加坡首富
  34. 美国出手 陈志覆灭 习近平又一钱袋子没了
  35. 南洛杉矶拦检非法移民 一联邦法警受枪伤
  36. 广东人移民的后代,又连任了一个外国总统?
  37. 美国硬抗关税也得买,"每天从中国进口额仍有10亿美元"
  38. 喀土穆国际机场重启前夕周边传遭袭击
  39. 报告:中俄屡挡预算 试图瘫痪联合国人权工作
  40. 习近平还能撑多久?中共已暴露极大软肋
  41. 华裔孙耀宁认罪 涉任中国代理人 或面临10年监禁
  42. “支票入账”陷阱 南加华女网络卖车遭诈
  43. 消息:越捷航空停租中国C909客机
  44. 加州大学AI官员:AI为网络诈骗打开大门
  45. 美客机在万米高空被神秘物砸中后紧急迫降
  46. 普京若飞波兰领空恐遭拦机逮捕
  47. 欧洲多国声援乌克兰
  48. 广东青年对出莫言上联获奖10万 被赞绝对 好在哪?
  49. 江泽民为何藉远华走私案 收拾姬鹏飞和刘华清?
  50. 中国学者革新百年宫颈癌手术标准
  51. 马斯克炮轰NASA局长:笨蛋一个
  52. 美医学研究:忽略1日常習慣 胰臟癌風險增加2倍
  53. 树倒猢狲散 传习派4常委请辞 汪洋增补为中央委员
  54. 成千上万人在西藏神秘消失?“冒险王”疑揭秘遭灭口
  55. 男友车祸死亡 8年后转生成女友的儿子
  56. 李成钢被免WTO代表职务 贝森特上周曾批其“失控”
  57. 菲律宾警告:中共宣传虚假信息 制造分裂
  58. 8个最神秘的中国汉字
  59. 四中全会内斗传言四起 北京市民近距离观察
  60. Claude新版神器:告别996爆肝研究