横扫全球15项SOTA

2026-04-19 04:25:14 · chineseheadlinenews.com · 来源: 量子位

等等——你是说,高德也闯入具身智能赛道了。

咱品,咱细品。一个国民级导航APP,怎么就和机器人、机器狗这些铁家伙联系起来了。

难道说,高德也开始跟风搞噱头了??

细一吃瓜才知道,误会了家人们:

这件事并非噱头,人家不仅有实打实的东西,而且成绩还位列全球第一梯队。

揭开面纱你会看到,高德这次带来了首个面向AGI的全栈具身技术体系ABot——

AGI、全栈、具身,这几个词我都懂,但放在一起到底啥意思?

再一看才明白,原来这是一套让机器人/机器狗(当然也不止这些),从炫技表演到真正走进现实世界帮大家干活的完整解决方案。

大多数行业玩家还在卷单点突破的时候,高德却率先把数据、模型、Agent从下到上全打通了。

而且得益于地图时代攒下的底层数据优势,其世界模型近期在依托CVPR 2026 Video World Model Workshop举办的国际挑战赛中,分数超过谷歌英伟达。ABot体系横扫具身智能全球15项SOTA,跻身全球第一梯队。

看到这儿,估计你和我一样好奇:

一个做导航的,凭什么能在具身智能赛道跑到前面?

(别急,咱火速开扒gogogo)

原来不是“数据多”就行了

答案,很多人第一反应可能是“数据”。

毕竟瞟一眼高德ABot全栈具身技术体系,最底层的就是数据。

数据层:ABot-World可交互世界模型

模型层:导航基座模型ABot-N/执行基座模型ABot-M

Agent层:机器人应用层操作系统ABot-Claw

但如果你只看到“数据”,那就错过了高德真正的杀手锏——

它没有停留在“数据多”,而是构建了一个“物理优先、动作可控、闭环进化”的机器人世界操作系统。

这是一个从“视觉渲染范式”向“可微分物理引擎范式”的根本性迁移。

当其他模型还在生成“看起来像”的视频时,高德的ABot-World已经在输出“符合物理规律”的动态变化过程。

它不只告诉你“发生了什么”,更告诉你“为什么发生”、“如果这样做会发生什么”。

而这,才是它成为全球唯一三项指标(物理合规性/动作可控性/零样本泛化)全面SOTA的真正原因。

所以,与其说高德赢在“数据”,不如说它赢在范式创新+系统工程+物理智能内核。

核心解决思路:可交互世界模型

具体来说,面对“如何让机器人理解真实物理世界”这一终极挑战,高德没有选择传统的“采集→标注→训练”路径,而是另辟蹊径——

它没有去“收集数据”,而是去“重建物理世界”。

传统方法要么靠人拍(众包),要么靠机器跑(遥控),成本高、效率低、覆盖窄。

而高德的答案是:

与其等待机器人在真实世界中缓慢积累经验,不如先在高保真的数字世界中,高效、批量地生产具身智能所需的一切物理交互场景。

而这,正是高德推出的可交互世界模型ABot-World的核心使命——

构建一个可交互、可推演、可进化的机器人世界操作系统。

等等,这不就是数据合成、数据仿真那一套吗?

继续深挖才发现,虽然二者思路看起来相似,但底层逻辑其实不太一样。

个人理解,合成仿真有点像“照猫画虎”,目标是让模拟尽可能逼近真实。

而高德恰恰相反,它不是从零去模拟真实,而是基于现成的真实世界数据,把场景还原出来拿给机器人用。

所以,哪个更精准就不用多说了吧…

说实话,对高德来讲,“精密重建与理解物理世界”几乎就是自己的看家本领——

毕竟它每天都在做的,就是把来自卫星、街景车、众包设备的大量数据,一点点拼起来,变成一个能被机器理解和计算的数字世界。

emmm……光看文字可能还有点抽象,但转念一想:

这不就是我最近骑行时打开高德看到的画面吗?

只不过以前是给人交互,现在则更往底层走——变成了可以让机器“理解”和“交互”的训练环境。

到这里,我已经搞懂高德ABot-World背后的原理了,但我想知道的可不止原理——

具体方法论呢??

所以我又接着扒了一下高德ABot-World的具体运作过程。

具体落地:一套双引擎架构

先从最直观的外观说起,ABot-World采用的是双引擎驱动架构:

ABot-3DGS:物理世界的“数字孪生工厂”

ABot-PhysWorld:因果推演的“物理思维引擎”

一开始还以为这不过是简单的“数据生成+模型训练”,但看完才发现,它这是一个完整的物理智能操作系统。

先说ABot-3DGS。

都工厂了,你就知道高德这是在对传统那套“贵、慢、覆盖不全”的数据生产方式,来了一次彻底的重拳出击。

具体来说,它这次干了这样一件事:

以高德积累的厘米级城市、道路、室内空间数据+真实轨迹数狙酞基础,结合前沿的3DGS技术,构建可编程的数字孪生空间。

划重点,可编程。说白了就是,现在你可以随心所欲生产数据了。

在ABot-3DGS里,数据不再受制于采集条件——任意视角、光照、遮挡状态都可以直接生成,机器人形态也能灵活切换,不同执行体之间的差异被抹平。

更关键的是,这套体系可以系统性补齐那些过去最难覆盖的部分:

长尾交互场景(也就是机器人容易翻车的地方)。

通过大规模组合与仿真,极端情况、突发干扰都能提前构造出来,最终把覆盖率推到99%。

就是说,模型最容易出问题的那一小撮情况,基本都被提前见过、练过了。

还有一个更关键的突破——

这里的“空间”不是只有几何外观,而是带物理属性的。每个物体都会被赋予质量、摩擦系数等参数,从一开始就构成一个可计算、可干预的物理环境。

啥叫可干预?其实就是通过编程改参数。

比如把一个物体的质量调大,机器人抓取时需要的力度、轨迹都会随之改变;把地面的摩擦系数调低,同样的动作就可能打滑失败。

于是你发现没,ABot-3DGS已经不是数据增强工具,而是在主动创造一个比现实更丰富、更可控、更物理一致的“训练宇宙”。

好,现在我已经明白ABot-3DGS可以解决“数据稀缺”的问题了,但我还是不清楚其中的细节:

高德积累的那些真实时空数据,是怎么一步步变成“机器人能用的训练材料”的?

顺着网线再扒了一圈,脑海里自动浮现了这样一句口号:一翻译二重建三Run。

“一翻译”是指先把数据转成机器能读懂的“多模态Clip”。

比如骑车经过一个路口,高德记录下来的不只是“一张图”,而是一整套信息——

包括路口长什么样(图像)、红绿灯在哪(空间位置)、现在是红灯还是绿灯(状态)、你是直行还是准备转弯(行为),甚至还包括周围有没有行人、车辆在动。

所有东西打包在一起就是一个Clip,而高德手里有千万级这样的Clip。

当机器拿到这些信息后,ABot-3DGS就能把路口、街道、商场这些地方重建出来,形成万级规模的3D真实场景。

P.S. 看了下万级规模的概念,基本上能覆盖99%的典型生活场景了。

而且由于前一步拿到的信息都是自带物理规则和空间逻辑的,所以这里的3D数字场景也都是“活”的。

然后就是最后一步——Run起来。

把机器人丢进去,让它在里面走一遍、做一遍,千万级训练轨迹数据,就这么批量生成。

到这里,剩下的问题就只有一个了:

怎么解决“懂物理”这个行业公认的老大难?

ABot-PhysWorld为此而生。

它基于14B参数的DiT主干构建,本质是一个物理思维引擎,回答的是机器人最核心的问题:

“如果我这样动,接下来会发生什么?”

为了打造ABot-PhysWorld,高德做了三件不同寻常的事:

数据层面,高德精选300万条真实操作视频,用VLM+LLM双阶段标注,构建四层级物理语义结构(意图→动作→轨迹→物理关系),奠定因果推理基础。

简单来说,就是将数据拆解成机器人更易“消化”的结构化信息:

宏观层(意图):自然语言描述整体任务目标,如“抓取并放置苹果”。

中观层(动作序列):动词-名词短语序列,如“接近→抓握→提起→移动→释放”。

微观层(轨迹细节):记录笛卡尔轨迹、相对运动、夹爪状态,如“末端沿Z轴下降5cm,夹爪闭合至20mm”。

场景层(物理关系):描述接触、支撑、包含关系及任务结果,如“苹果与桌面接触,被夹爪稳固抓握,成功放置于袋中”。

看到没,这套标注流程不仅在告诉机器人“发生了什么”,更在解释“为什么发生”。

训练层面,高德摒弃传统MLE(像素相似度优化),引入“物理判别机制”。

所谓MLE,是指给模型看大量真实视频,让它预测“下一帧应该长什么样”,预测得越像真实的那一帧(像素差异越小),得分越高。

换言之,这一机制下模型只关心“画面对不对”,不关心“物理对不对”。

所以高德通过两个核心组件,把优化目标从“像素相似度”转向“物理一致性”:

Proposer module:负责根据当前任务,列一费田理规则清单,说清哪些能做,哪些绝对不行。

Scorer module:对模型生成的多个结果逐帧打分。

然后用Diffusion-DPO强化合规行为——

物理正确就奖励,物理错误就扣分。

反复纠正下来,模型自然学会了“什么动作不违反物理”。

至此,ABot-PhysWorld已经能够根据输入的末端位姿和夹爪状态,推演出未来的时空动力学变化——指令即因果,不再只是像素层面的“看起来像”。

输出层面,ABot-PhysWorld的每一帧不仅是像素,更是包含质量、接触力场、惯性张量的可微分物理状态快照,支持“动作条件化推演”与“零样本泛化”。

这意味着,给它一个动作指令(比如“下降5cm、夹爪闭合”),它就能精准算出接下来会发生什么,而不是靠“猜”。

哪怕遇到从没见过的物体或机器人,它也能根据质量、摩擦、惯性这些通用物理规律做出合理判断,不需要重新训练。

这三招下去,结果是,那些困扰行业已久的“低级错误”开始从根源上消失了——

物体不会穿透、夹爪不会无接触抓取、动作不会反重力悬浮。

因为,机器人已经不再是机械执行指令了,它开始知道“为什么不能这么做”。

而当把两个引擎放在一起,你会发现ABot-World内部已经形成了一个持续增强的“数据-模型”飞轮。

ABot-3DGS负责造数据,ABot-PhysWorld负责学物理——

前者不断生成高质量训练材料,后者不断提升对真实世界的理解。

但这个飞轮不止于此。

ABot-World不是一个静态模型,而是一个具备自我修正能力的认知基座——

它还能接入真实世界的执行反馈,让自己越用越准。

具体来说,它支持完整的VLA闭环(预测→执行→反馈→自我修正)。

比如机器人根据ABot-World的推演去抓杯子,结果实际执行中夹爪滑脱了。这个误差信号会立刻回传给ABot-PhysWorld,模型自动调整参数,下次预测就会更精准。

对整个行业来说,这种“自生长、自修正、自适应”的能力,意味着机器人不再依赖人类演示,而是能在真实环境中持续进化。

而这,或许才是AGI时代机器人应有的“操作系统级”能力。

到这里,我对高德如何使用自己的数据已经很清晰了,咱捋一捋:

核心解决思路是“可交互世界模型”,世界模型的数据来自ABot-3DGS,经“一翻译二重建三Run”加工成训练材料,物理对齐则交给ABot-PhysWorld完成。

这一整套下来,高德本质上其实干了两件事:

一是把数据生产成本打下来了,二是把“物理正确”这件事,真正嵌进了系统里。

成本下降,意味着能喂给模型的数据量可以做到足够大;物理正确,意味着喂进去的数据质量足够真。

当“量大”和“真实”同时满足,模型看到的不再是零散样本,而是接近真实世界分布的数据——

于是它学到的也不再是“某几个场景的解法”,而是更通用的物理规律。

这样一来,具身智能最后的大BOSS——泛化问题,也就真正有了被攻克的可能。

就是说,数据开始反过来定义模型能力本身以及边界了……

为什么是高德?

看到这里,估计大家和我一样,终于反应过来高德凭啥跑到具身赛道前列了。

说白了,这不是一次跨界,而是一次升维:

从给“人”导航,到给“机器人”构建物理世界的操作系统。

高德真正的护城河,从来不只是“数据多”——

还有过去地图时代练出来的空间理解、地图构建、实时更新能力,这些共同构成了它难以被复制的底气。

这当中,尤为值得一提的就是一张关键王牌:业界领先的POI(兴趣点)数据库和路网语义信息。

说人话就是,高德给ABot-World提供的数据都是带“语义”的——

不只是几何轨迹,还有“这里是星巴克的入口”、“前方是人行横道”、“左转50米是停车场出口”等语义锚点。

为什么这很重要?

因为行业里大多数机器人的导航训练,用的只有几何坐标和视觉特征。

机器人只是知其然,而不知其所以然。

它可以学会从A走到B,但很难理解为什么这里要绕行、为什么这里要停一下、为什么这条路更安全。一旦环境稍微变化,比如多了行人、临时施工、规则调整,就很容易出错。

而带语义的数据,相当于把“规则”和“常识”一起教给它。

这也是为什么,它更容易直接落到真实世界里用。

恰逢北京亦庄机器人半马,高德也带着它的四足机器狗亮相了——

它已经能帮助盲人朋友走出家门,实现精准导航。

实际上,抛开所有技术不谈,从地图时代到现在,高德的角色其实并没有变——

以前,它是连接人和现实世界的基础设施;现在,它开始变成连接机器人和物理世界的基础设施。

只不过服务对象变了,能力边界被放大了。

当然更重要的是,高德已经决定把ABot-World开源了。

它正提供一个统一的、物理合规的、可进化的机器人世界模型操作系统,让所有开发者都能在其上构建自己的Agent、训练自己的机器人。

从这个角度看,高德这次亮剑的并不只是一款产品,而是一个面向下一代机器人智能的底层平台。

有了这个平台,行业就不用再各自重复造轮子了,以前数据不够、仿真又不够真的问题,也会被系统性缓解。

由此我们看到,一个统一的“操作系统”正在成型,而生态也将围绕这一底座快速收敛并加速爆发。

只能说,高德的心思不要太好懂(doge)——

一边把底座铺好,一边把生态带起来。

等大家都在这套体系上跑起来,它自然也就站在了具身赛道最核心的位置。

One More Thing

2026年,具身智能赛道依然热火朝天,融资纪录不断刷新。

但历史经验告诉我们:

当行业在底层基础设施上开始成型,局面就会迅速收敛。

就像TCP/IP统一了网络连接方式,Linux成为事实上的操作系统底座,云计算把算力变成公共资源——

现在的具身智能,正站在从“百花齐放”走向“生态收敛”的临界点。

而高德,已经率先亮剑。

横扫15项SOTA、“拿下全球唯一三项指标全面领先”、发布首个“物理优先”的世界模型操作系统——

这些不只是数字和称号,而是它已经站上牌桌的证明。

站在高德的角度而言——

无论最终谁能胜出,它都已经为行业铺好了通往AGI的第一块基石。


    24小时新闻排行榜更多>>
  1. 中国官方首次披露多名高级将领消失原因
  2. 从A片女星到律师!她52岁通过司法考试 人生逆转
  3. 10省份全省推行中小学春秋假
  4. 肺癌成中国女性第一大癌症,这些“警示”别忽视
  5. 油轮在霍尔木兹海峡遭袭 印度召见伊朗大使
  6. 2026全球潜艇战力排行出炉
  7. “我还能直立行走” 黄秋生守住风骨 不向中共低头
  8. 伊朗向试图穿越海峡的油轮开火
  9. 准备用兵?川普暗示古巴“新曙光将至”扬言拭目以待
  10. 美议员喊话秘鲁,要从中方手里夺下钱凯港
  11. 海峡重启不到1天又封 美军续锁伊朗港口23艘船折返
  12. 王健林也传坏消息 原来他和许家印处境一样
  13. 张雪机车荷兰站正赛收获第四
  14. 相当于20个三峡大坝 中国在沙漠里干了件大事
  15. 做空机构盯上“税收套利”帝国
  16. 伊朗最高领袖顾问:内部团结与抵抗阵线不能成筹码
  17. “HALO交易”,昙花一现还是大势所趋?
  18. 伊朗再次封锁霍尔木兹海峡
  19. 海湾国家遭美伊双面索费,沦为最大冤大头?
  20. 环保少女"加萨船队"出事,高层与3女志工不当性关系
  21. 患冠心病,离不开这3点
  22. 马扎尔胜选匈牙利总理会对欧盟带来变化?
  23. 伊议长:距离达成最终协议还很远
  24. 日本向澳大利亚出口隐形护卫舰
  25. 霍尔木兹一日数变 伊朗开了又封 怒批川普全谎言
  26. 张雪机车为何第三变第四?
  27. 林顿重建六泳道泳池,引财政危机忧虑
  28. 从首富家庭到风暴中心:许家印子女的不同命运
  29. 伊朗周六宣布重新关闭霍尔木兹海峡
  30. 习旧部刘奇前大管家投案 刘奇或涉马兴瑞案
  31. 为啥卡戴珊之母成了全球年轻人的财神?
  32. 54岁梁宏达近况曝光
  33. 美媒:川普推动协议之际 中国提议接手伊朗浓缩铀
  34. 中国这两个男人,才是AI时代的“印钞机”
  35. 组图:纽约橙县学员集体炼功 感恩师父慈悲救度
  36. “清朝第一贪官”和珅:抄家时却家徒四壁
  37. 伊朗议长气炸,怒批川普全谎言
  38. 福建女子莫名疲倦怕冷 体重攀升 查出甲减
  39. 美伊谈判生变化,以担心“伊朗已占上风”
  40. 伊朗:无条件过境通行霍尔木兹海峡已成历史
  41. DeepSeek首次启动融资,估值680亿,圈里已经炸了
  42. 40名中国客乘坐大巴在俄罗斯翻车 2死10伤
  43. 教宗紧急“降温”:否认隔空对线川普 媒体全误读了
  44. 满洲里大巴赴俄翻侧,2死至少10伤
  45. 王健林和许家印的处境一样
  46. 普通家庭最难的4件事,将同时发生
  47. 朝鲜发射弹道导弹,日本有何反应?
  48. 习近平新闻学院:一个蒙古记者的故事
  49. 法国士兵在黎巴嫩遇难 马克龙谴责真主党
  50. 战火外溢,三国反美情绪升温
  51. 机器人半程马拉松北京开跑 两机器人栽倒惹议
  52. 马斯克来抖音卖老干妈了?
  53. 越专制的统治,越害怕开放!
  54. 中产失灵,但星巴克还想“死磕”溢价
  55. 在河南农村,有10元/小时的活干是一种福利
  56. 丹麦王后“撸狗”,被女王阻止
  57. 美最强钻地弹也打不到?这座核设施埋了多深
  58. 缺工,失联,种族歧视:印度移工揭开台湾的三重困境
  59. 伊朗女性参加阅兵,开军车、持步枪、扛火箭筒
  60. “疯子”张雪:我就是国际一线