世界模型来了因果技术标杆-墙外头条

具身智能正在经历一场普遍的“水土不服”。

很多人发现，在模拟环境里表现优异的机器人，一旦进入真实工厂，往往立刻失灵。这是行业内最尴尬的现状，也是整个具身赛道最核心的瓶颈：泛化能力。

换一个环境，可能就要重新采数据、重新训练、重新交付。机器人学的始终是特定场景下的“经验”，而非现象背后的“规律”。

在这一背景下，为了让机器真正理解物理世界，构建“世界模型”逐渐成了具身大脑近年来最拥挤的赛道，各式技术路线层出不穷。

最近，有一家成立不久的公司——Aether AI，宣布完成2000万美元种子轮融资，由经纬创投领投，英诺基金、SWC Global、九合创投参投。它的路线在业内几乎是独一份：不做视频生成，不做3D重建，也不做JEPA，而是走了一条少有人走的路：因果世界模型。

这家公司认为，如今的主流大模型，本质上都是基于数据表层的相关性，而非底层的因果性，这在物理世界可能行不通。

简单来说，它的因果世界模型想让机器人像人类一样，真正理解背后的机制和“为什么”，而不仅仅是推测“接下来最可能发生什么”。

如果将LLM、VLA、视频生成模型等技术路线比作拼体格的相扑选手，力量来自更大的算力、参数和数据，因果世界模型更像是在练内功，通过底层的理论突破，试图用更少的数据实现更强的泛化，“四两拨千斤”。

都叫世界模型，但彼此并不一样

先厘清一个问题：都以“世界模型”命名，因果世界模型和其它世界模型有什么区别？

Aether AI创始人、加州大学圣地亚哥分校（UCSD）助理教授黄碧薇，将当前行业内主流世界模型分为三条路线：

??视频生成路线：像素级渲染效果确实惊艳，但问题在于它拟合的只是画面的表层相关性。画面看上去合理，不代表物理上可行。一个杯子可以凭空穿过桌面，只要像素过渡平滑，模型就不会觉得有什么不对。这种路线做视频可以，做精准控制不行。

??3D生成路线：空间结构还原得很好，但它本质上是一个静态的世界快照。时间维度上的动力学、因果交互，这一块基本是缺失的。知道物体在哪，不等于知道它会怎么动、为什么动。

??JEPA路线：去掉像素解码器，在隐空间做状态转移，思路很巧妙。但它没有显式地去拆解因果变量和结构，像摩擦力、接触力这类精细交互信息，很容易在抽象过程中被丢失。

这些技术路线都在回答同一个问题：AI如何建立对现实世界的内部表征。但黄碧薇追问的是更底层的那个问题：物理世界为什么这样演化？

从这个角度看，因果世界模型是第四条路线，侧重在隐空间显式学习因果变量、结构、动力学，掌握底层物理规律。它关心的不只是“下一步最可能发生什么”，还有“是什么导致了下一步的发生”。

在黄碧薇看来，因果世界模型才是世界模型的“终局形态”，是实现物理AGI的最优技术路线。

进一步拆开来看，因果世界模型包含三大核心要素：

第一，因果变量提取。从像素、传感器这些原始数据里，拆出真正独立的因果特征——物体的形状、速度、角速度、摩擦力系数、表面粗糙度等等，这些变量是物理交互的基本单元。

第二，因果结构学习。建模不同变量之间的影响关系。手施加的力、角度、速度，如何共同决定抓取的成功率？这里没有”端到端”的黑箱，结构是显式的，可解释的。

第三，因果动力学建模。学习系统统随时间、动作的状态转移规律，这不是在拟合轨迹，而是在学习支配轨迹的规则，预测不同动作下下一时刻的世界状态。

从完整的系统层面，Aether AI有四层架构：底层依然是Transformer——没有重新发明轮子，因果并不排斥Transformer；中间层是因果世界模型和模块化架构（类似MoE）；最顶层是Agent系统。

这套架构被称为“因果AI全栈架构”，从Transformer到Agent，需要注意的是，它不是给现有模型加因果“插件”，而是从Transformer到Agent系统，全部由因果思维驱动。

还有一点很关键：相较于VLA、WAM等其它模型，因果世界模型对数据几乎没有额外的要求。

Aether AI约80%数据使用的是模拟、第一视角和公开视频数据，约20%使用遥操数据完成“最后一公里”。

面对同样的数据，因果模型能从中提取出相关性模型读不出来的深层信息。

实现这一点，靠的是因果世界模型背后的数学和统计理论，这恰恰也是其技术门槛所在。

从“找规律”到“懂原理”

为什么非做因果不可？

熟悉AI的人都知道，过去几年，LLM的成功让行业形成了一种朴素信仰：大力出奇迹，数据、算力、参数堆上去，智能就会涌现。

这套逻辑在语言世界确实奏效。原因很简单：人类文明几千年的知识已经被压缩成了文字，模型只需要把语义表层的关联学到极致，就足以显得“智能”。

但物理世界不提供这种便利。

摩擦力、遮挡、角度、速度……每一项都可能改变机器人的行为结果，这些变量之间的关系，光靠“看数据”是学不出来的。

统计学里有一个著名的辛普森悖论：在肾结石治疗案例中，如果忽略结石大小这个隐变量，同一份数据甚至会得出完全相反的结论。只看相关性，不看隐藏的成因，结论可以直接翻过来。

机器人面临的是同样的处境。物理世界遍布隐变量。VLA也好，WAM也好，全都有这个盲区。

在黄碧薇看来，LLM、VLA、WAM、视频生成模型都属于“相关性模型”。它们的共同特征是：擅长捕捉数据中的规律和相关性，但不理解数据生成的底层机制。

具体来说，相关性模型存在三个明显的局限性：

第一，数据永远不够。语言可以被离散化为有限词汇，但机器人面对的是连续的状态空间和动作空间。物理世界的变量组合几乎是无限的，而且每一次动作都会改变下一时刻的数据分布——这和数据独立的机器学习假设完全冲突。

第二，场景永远覆盖不全。泛化性上不去，机器人就永远被困在实验室和精心布置的demo里。每换一个场景就得重来一遍，这本质上说明模型没有学到真正通用的东西。

第三，物理世界需要干预，而不只是预测。语言模型输出一个错误答案，世界不会因此改变。但机器人输出一个错误的动作，物理世界就被不可逆地改写了。被动地“猜下一个token”在语言上行得通，在物理上行不通。

所以，Aether AI的判断是，物理AI的答案并非“相关性大模型”，而是“因果性大模型”。

当然，这个判断有坚实的理论基础。

图灵奖得主Judea Pearl提出的“因果之梯”理论，把AI对世界的理解与推理能力划分为由低到高的三个层级：关联、干预、反事实。

今天的相关性模型只到了第一层。

举个典型的例子。数据告诉我们，冰淇淋卖得越多，鲨鱼攻击事件也越多。对于这件事，是冰淇淋导致事故？还是背后有一个隐藏的混杂变量同时影响了两者？相关性模型无法回答。

实际上，冰淇淋和鲨鱼攻击之间没有因果关系，它们只是被同一个东西驱动——天气热。AI也是一样的。如果AI只学数据里的相关性，它会得出很多看起来很聪明、实际上是错的结论。这就是为什么我们需要因果。

因果性模型可以做到第二层和第三层，干预，是理解“如果我做这个动作，会发生什么”。反事实，是想象“如果当初没有做这个动作，会怎样”。

机器人一旦具备这种因果理解，泛化就变成了一个自然的结果。它理解的不是在这个场景这么做会成功，而是这个动作通过什么机制导致了那个结果。

机制不变，场景怎么变都能应对，就像被打通了任督二脉，长程任务执行能力也更出色。

Aether AI的内部数据验证了这一点。在机器人操作任务上，因果世界模型相比传统世界模型实现了25%-50%的成功率提升，以及5到10倍的样本效率提升。在一些案例中，仅用50条高质量的数据，就能让此前频繁失败的任务达到可靠的成功率。

黄碧薇称，懂因果的模型，用20%的数据就能达到相关性模型100%数据的效果。

AI范式变革可能真的要来了

回到Aether AI这家公司，他们的野心不止于做一家机器人公司。

黄碧薇说：“OpenAI开创了LLM范式，我们要开创以因果世界模型为核心的下一代范式。”

这听起来像是创业公司的标准叙事，但她背后的学术脉络让这件事有了不一样的分量。

黄碧薇的因果研究始于德国马普所，至今整整十三年。她的导师名单包括了因果发现奠基人Clark Glymour，以及第二代核心推动者Bernhard Sch?lkopf和Kun Zhang。几十年来，三代因果发现学术成果的传承，在这一刻汇聚到了一个创业项目上。

黄碧薇把AI的发展划分为四个范式：相关性小模型→因果性小模型→相关性大模型→因果性大模型。

现在整个行业站在第三个范式上。Aether AI想把它推到第四个。

那么，为什么这件事，偏偏是Aether AI来做？

毫不夸张地说，在AI领域，因果学派一直处于“困难模式”。它对数学和统计的要求极高，真正深入这个领域的研究者极少。同时懂因果理论和工程落地的人，更是少之又少，和深度学习从业者完全不在一个量级。

这正是Aether AI最深的护城河。不是数据，不是算力，而是人——以及这些人背后多年的学术积淀。

从行业视角来看，VLA发展了几年后，泛化性和数据的天花板已经实实在在地摆在眼前，市场对新路线有了真实的需求。因果理论在机器人场景的核心难题上也基本有了解法。再加上大模型工程能力和训练基础设施已经成熟，具身数据开始形成规模，成本在快速下降。

在这样的背景下，Aether AI给自己定的目标不算保守：预期明年机器人具备较强泛化和长程任务能力；明年晚些时候，结合locomotion和manipulation，让机器人在开放环境里既能走动又能完成操作任务；未来更进一步，让机器人走向开放环境中的移动、操作和持续学习。

此次Aether AI融的是种子轮，通常代表从0到1的起步。对于资本而言，成熟路线拼执行，非共识路线赌范式。后者一旦成功，就是颠覆性的成果，而市场选择了Aether AI，就是押注了后者。

对Aether AI来说，真正的分水岭只有一个：能不能把因果基础模型从理论优势，转化为机器人可量化的泛化能力、长程任务能力和数据效率——形成足够厚、足够深的商业壁垒，直到范式切换。

眼下各种具身大脑的技术路线都朝着“物理AI”这个终点狂奔，谁更接近目标，远没有答案。但在一个大家争相模仿的技术语境里，有人从根上重新问了一遍“智能到底是什么”，这本身已经构成了一个值得被认真对待的信号。