世界模型来了因果技术标杆

2026-06-24 21:25:13 · chineseheadlinenews.com · 来源: 量子位

具身智能正在经历一场普遍的“水土不服”。

很多人发现,在模拟环境里表现优异的机器人,一旦进入真实工厂,往往立刻失灵。这是行业内最尴尬的现状,也是整个具身赛道最核心的瓶颈:泛化能力。

换一个环境,可能就要重新采数据、重新训练、重新交付。机器人学的始终是特定场景下的“经验”,而非现象背后的“规律”。

在这一背景下,为了让机器真正理解物理世界,构建“世界模型”逐渐成了具身大脑近年来最拥挤的赛道,各式技术路线层出不穷。

最近,有一家成立不久的公司——Aether AI,宣布完成2000万美元种子轮融资,由经纬创投领投,英诺基金、SWC Global、九合创投参投。它的路线在业内几乎是独一份:不做视频生成,不做3D重建,也不做JEPA,而是走了一条少有人走的路:因果世界模型。

这家公司认为,如今的主流大模型,本质上都是基于数据表层的相关性,而非底层的因果性,这在物理世界可能行不通。

简单来说,它的因果世界模型想让机器人像人类一样,真正理解背后的机制和“为什么”,而不仅仅是推测“接下来最可能发生什么”。

如果将LLM、VLA、视频生成模型等技术路线比作拼体格的相扑选手,力量来自更大的算力、参数和数据,因果世界模型更像是在练内功,通过底层的理论突破,试图用更少的数据实现更强的泛化,“四两拨千斤”。

都叫世界模型,但彼此并不一样

先厘清一个问题:都以“世界模型”命名,因果世界模型和其它世界模型有什么区别?

Aether AI创始人、加州大学圣地亚哥分校(UCSD)助理教授黄碧薇,将当前行业内主流世界模型分为三条路线:

??视频生成路线:像素级渲染效果确实惊艳,但问题在于它拟合的只是画面的表层相关性。画面看上去合理,不代表物理上可行。一个杯子可以凭空穿过桌面,只要像素过渡平滑,模型就不会觉得有什么不对。这种路线做视频可以,做精准控制不行。

??3D生成路线:空间结构还原得很好,但它本质上是一个静态的世界快照。时间维度上的动力学、因果交互,这一块基本是缺失的。知道物体在哪,不等于知道它会怎么动、为什么动。

??JEPA路线:去掉像素解码器,在隐空间做状态转移,思路很巧妙。但它没有显式地去拆解因果变量和结构,像摩擦力、接触力这类精细交互信息,很容易在抽象过程中被丢失。

这些技术路线都在回答同一个问题:AI如何建立对现实世界的内部表征。但黄碧薇追问的是更底层的那个问题:物理世界为什么这样演化?

从这个角度看,因果世界模型是第四条路线,侧重在隐空间显式学习因果变量、结构、动力学,掌握底层物理规律。它关心的不只是“下一步最可能发生什么”,还有“是什么导致了下一步的发生”。

在黄碧薇看来,因果世界模型才是世界模型的“终局形态”,是实现物理AGI的最优技术路线。

进一步拆开来看,因果世界模型包含三大核心要素:

第一,因果变量提取。从像素、传感器这些原始数据里,拆出真正独立的因果特征——物体的形状、速度、角速度、摩擦力系数、表面粗糙度等等,这些变量是物理交互的基本单元。

第二,因果结构学习。建模不同变量之间的影响关系。手施加的力、角度、速度,如何共同决定抓取的成功率?这里没有”端到端”的黑箱,结构是显式的,可解释的。

第三,因果动力学建模。学习系统统随时间、动作的状态转移规律,这不是在拟合轨迹,而是在学习支配轨迹的规则,预测不同动作下下一时刻的世界状态。

从完整的系统层面,Aether AI有四层架构:底层依然是Transformer——没有重新发明轮子,因果并不排斥Transformer;中间层是因果世界模型和模块化架构(类似MoE);最顶层是Agent系统。

这套架构被称为“因果AI全栈架构”,从Transformer到Agent,需要注意的是,它不是给现有模型加因果“插件”,而是从Transformer到Agent系统,全部由因果思维驱动。

还有一点很关键:相较于VLA、WAM等其它模型,因果世界模型对数据几乎没有额外的要求。

Aether AI约80%数据使用的是模拟、第一视角和公开视频数据,约20%使用遥操数据完成“最后一公里”。

面对同样的数据,因果模型能从中提取出相关性模型读不出来的深层信息。

实现这一点,靠的是因果世界模型背后的数学和统计理论,这恰恰也是其技术门槛所在。

从“找规律”到“懂原理”

为什么非做因果不可?

熟悉AI的人都知道,过去几年,LLM的成功让行业形成了一种朴素信仰:大力出奇迹,数据、算力、参数堆上去,智能就会涌现。

这套逻辑在语言世界确实奏效。原因很简单:人类文明几千年的知识已经被压缩成了文字,模型只需要把语义表层的关联学到极致,就足以显得“智能”。

但物理世界不提供这种便利。

摩擦力、遮挡、角度、速度……每一项都可能改变机器人的行为结果,这些变量之间的关系,光靠“看数据”是学不出来的。

统计学里有一个著名的辛普森悖论:在肾结石治疗案例中,如果忽略结石大小这个隐变量,同一份数据甚至会得出完全相反的结论。只看相关性,不看隐藏的成因,结论可以直接翻过来。

机器人面临的是同样的处境。物理世界遍布隐变量。VLA也好,WAM也好,全都有这个盲区。

在黄碧薇看来,LLM、VLA、WAM、视频生成模型都属于“相关性模型”。它们的共同特征是:擅长捕捉数据中的规律和相关性,但不理解数据生成的底层机制。

具体来说,相关性模型存在三个明显的局限性:

第一,数据永远不够。语言可以被离散化为有限词汇,但机器人面对的是连续的状态空间和动作空间。物理世界的变量组合几乎是无限的,而且每一次动作都会改变下一时刻的数据分布——这和数据独立的机器学习假设完全冲突。

第二,场景永远覆盖不全。泛化性上不去,机器人就永远被困在实验室和精心布置的demo里。每换一个场景就得重来一遍,这本质上说明模型没有学到真正通用的东西。

第三,物理世界需要干预,而不只是预测。语言模型输出一个错误答案,世界不会因此改变。但机器人输出一个错误的动作,物理世界就被不可逆地改写了。被动地“猜下一个token”在语言上行得通,在物理上行不通。

所以,Aether AI的判断是,物理AI的答案并非“相关性大模型”,而是“因果性大模型”。

当然,这个判断有坚实的理论基础。

图灵奖得主Judea Pearl提出的“因果之梯”理论,把AI对世界的理解与推理能力划分为由低到高的三个层级:关联、干预、反事实。

今天的相关性模型只到了第一层。

举个典型的例子。数据告诉我们,冰淇淋卖得越多,鲨鱼攻击事件也越多。对于这件事,是冰淇淋导致事故?还是背后有一个隐藏的混杂变量同时影响了两者?相关性模型无法回答。

实际上,冰淇淋和鲨鱼攻击之间没有因果关系,它们只是被同一个东西驱动——天气热。AI也是一样的。如果AI只学数据里的相关性,它会得出很多看起来很聪明、实际上是错的结论。这就是为什么我们需要因果。

因果性模型可以做到第二层和第三层,干预,是理解“如果我做这个动作,会发生什么”。反事实,是想象“如果当初没有做这个动作,会怎样”。

机器人一旦具备这种因果理解,泛化就变成了一个自然的结果。它理解的不是在这个场景这么做会成功,而是这个动作通过什么机制导致了那个结果。

机制不变,场景怎么变都能应对,就像被打通了任督二脉,长程任务执行能力也更出色。

Aether AI的内部数据验证了这一点。在机器人操作任务上,因果世界模型相比传统世界模型实现了25%-50%的成功率提升,以及5到10倍的样本效率提升。在一些案例中,仅用50条高质量的数据,就能让此前频繁失败的任务达到可靠的成功率。

黄碧薇称,懂因果的模型,用20%的数据就能达到相关性模型100%数据的效果。

AI范式变革可能真的要来了

回到Aether AI这家公司,他们的野心不止于做一家机器人公司。

黄碧薇说:“OpenAI开创了LLM范式,我们要开创以因果世界模型为核心的下一代范式。”

这听起来像是创业公司的标准叙事,但她背后的学术脉络让这件事有了不一样的分量。

黄碧薇的因果研究始于德国马普所,至今整整十三年。她的导师名单包括了因果发现奠基人Clark Glymour,以及第二代核心推动者Bernhard Sch?lkopf和Kun Zhang。几十年来,三代因果发现学术成果的传承,在这一刻汇聚到了一个创业项目上。

黄碧薇把AI的发展划分为四个范式:相关性小模型→因果性小模型→相关性大模型→因果性大模型。

现在整个行业站在第三个范式上。Aether AI想把它推到第四个。

那么,为什么这件事,偏偏是Aether AI来做?

毫不夸张地说,在AI领域,因果学派一直处于“困难模式”。它对数学和统计的要求极高,真正深入这个领域的研究者极少。同时懂因果理论和工程落地的人,更是少之又少,和深度学习从业者完全不在一个量级。

这正是Aether AI最深的护城河。不是数据,不是算力,而是人——以及这些人背后多年的学术积淀。

从行业视角来看,VLA发展了几年后,泛化性和数据的天花板已经实实在在地摆在眼前,市场对新路线有了真实的需求。因果理论在机器人场景的核心难题上也基本有了解法。再加上大模型工程能力和训练基础设施已经成熟,具身数据开始形成规模,成本在快速下降。

在这样的背景下,Aether AI给自己定的目标不算保守:预期明年机器人具备较强泛化和长程任务能力;明年晚些时候,结合locomotion和manipulation,让机器人在开放环境里既能走动又能完成操作任务;未来更进一步,让机器人走向开放环境中的移动、操作和持续学习。

此次Aether AI融的是种子轮,通常代表从0到1的起步。对于资本而言,成熟路线拼执行,非共识路线赌范式。后者一旦成功,就是颠覆性的成果,而市场选择了Aether AI,就是押注了后者。

对Aether AI来说,真正的分水岭只有一个:能不能把因果基础模型从理论优势,转化为机器人可量化的泛化能力、长程任务能力和数据效率——形成足够厚、足够深的商业壁垒,直到范式切换。

眼下各种具身大脑的技术路线都朝着“物理AI”这个终点狂奔,谁更接近目标,远没有答案。但在一个大家争相模仿的技术语境里,有人从根上重新问了一遍“智能到底是什么”,这本身已经构成了一个值得被认真对待的信号。


    24小时新闻排行榜更多>>
  1. 川普下令调查油价高企问题 剑指大型石油公司
  2. 两日本人在中国被捕 被指违反稀土出口禁令
  3. 美国车企为何扎堆做储能?
  4. 太子集团二号人物日本落网 美起诉书揭十年安稳秘密
  5. “看不见的手”CNN:重开海峡 全球油价取决北京
  6. 大摩:“钠离子电池”=“新石油”
  7. 美国向菲军移交太阳能无人艇,加强南中国海监测能力
  8. 美股科技恐慌指数逼近20年极值
  9. 半路夫妻十年故事:看似和睦的家庭,藏着无数算计
  10. 安徽惨烈车祸2死1伤 传肇者是书记儿媳曾撞死人
  11. 唐柏桥:也谈冯小罢的新电影“抓特务”
  12. 76%各国民众不信任川普,民调揭“信任度惨跌”
  13. 川普收到34岁女助手“情书”越发亲密 特勤局担忧
  14. 中国的初代超模:退圈10年,归来时已是230斤
  15. 中国女留学生命丧马国 男友割颈杀害 伴尸两天自首
  16. 比尔盖茨认了3段婚外情!被逼问“GG的秘密”
  17. 两日本人在中国被拘留 疑涉违规出口稀土
  18. 湖北省晨光托举工程评审结果公示
  19. 萧美琴:绝不容许中国共产党定义我们是谁
  20. 江苏多地处长变科长 被指官僚体系难为继
  21. 加拿大C-8法案落地,禁华为中兴5G
  22. 寿命长的人不是靠多运动,而是这4点
  23. 长期使用褪黑素可能增加心衰风险
  24. 一个人的福报快尽了 身体会出现4个警讯
  25. 韩国女消防员被强迫陪酒后死亡 惊动总统李在明
  26. 没有夏天的一年 全球陷入饥荒与寒冬
  27. 中共密集召开党建会 知情人:倒查官员政绩
  28. 欧洲酷热窒息,空调风扇销量增千倍
  29. 山东人175cm是个什么水平?
  30. 杭州雨后出现大量地衣,很多人在捡
  31. 深圳老人三甲医院接受微创手术 次日身亡
  32. 17次暴跌历史回测后 汤姆·李得出同一个结论
  33. 图闻集锦:美洲国家组织大会 川普宾州演讲
  34. 美国务院鼓励各州与企业扩大对台交流 受压可求助
  35. 浙商大校长三连喊,拒绝活成讨厌模样
  36. 广东摊贩站上车顶控诉 阻止餐车被城管拖走
  37. 欧盟加入美“硅和平”倡议 降低对中依赖
  38. 刚果埃博拉疫情扩大 美首度提供试验性药物
  39. 455人被控诈白卡 涉案金额逾$65亿 覆盖45个州
  40. 2026年环太军演拉开帷幕
  41. 美国拟限缩国际学生签证停留期限
  42. 共和党押注控房价 签字前最后一刻 川普突然翻脸
  43. 黑龙江多地传商户排查引关门潮 居民:当局怕舆情又取消
  44. 曼达尼背书候选人全胜
  45. 从石泰峰、陈希、魏小东看二十一大人事战白热化
  46. 90年来最强!北加州5.6级地震震动65万人多座城市
  47. 上任仅18个月,美军四星上将被爆将提前离职
  48. 川普总统签署行政令,争取在量子竞赛中领先中国
  49. 动物收容所爆杀狗丑闻,FBI介入调查
  50. 纽约州初选日,投票站偏冷清
  51. 室外高温35度!美3岁弟遭"独留车上"活活热死
  52. 国军5天4夜操演 台湾国防部改教召制度
  53. 刘强东不再需快递员 京东70万“兄弟”要去学修机器人
  54. “谢娜开演唱会”被人民日报点名
  55. 原新疆公安厅长朱昌杰落马 分析:元老欲夺习刀把子
  56. 美媒纪录片:玛丽莲梦露自杀现场,或系伪造…
  57. 消费、出口、AI与传产加持 台湾今年经济成长10%起跳
  58. 广东摊贩站上餐车车顶 大声控诉阻城管拖车
  59. 华男持H1签证却兼职“取包裹” 被判27个月 刑满遣返
  60. 六届世界杯都有进球 C罗打破历史纪录