横扫全球15项SOTA！高德首个面向AGI的全栈具身技术体系大公开,高德nlp

一水发自凹非寺
量子位 | 公众号 QbitAI

等等——你是说，高德也闯入具身智能赛道了。

咱品，咱细品。一个国民级导航APP，怎么就和机器人、机器狗这些铁家伙联系起来了。

难道说，高德也开始跟风搞噱头了？？

细一吃瓜才知道，误会了家人们：

这件事并非噱头，人家不仅有实打实的东西，而且成绩还位列全球第一梯队。

揭开面纱你会看到，高德这次带来了首个面向AGI的全栈具身技术体系ABot——

AGI、全栈、具身，这几个词我都懂，但放在一起到底啥意思？

再一看才明白，原来这是一套让机器人/机器狗（当然也不止这些），从炫技表演到真正走进现实世界帮大家干活的完整解决方案。

大多数行业玩家还在卷单点突破的时候，高德却率先把数据、模型、Agent从下到上全打通了。

而且得益于地图时代攒下的底层数据优势，其世界模型近期在依托CVPR 2026 Video World Model Workshop举办的国际挑战赛中，分数超过谷歌英伟达。ABot体系横扫具身智能全球15项SOTA，跻身全球第一梯队。

看到这儿，估计你和我一样好奇：

一个做导航的，凭什么能在具身智能赛道跑到前面？

（别急，咱火速开扒gogogo）

原来不是“数据多”就行了

答案，很多人第一反应可能是“数据”。

毕竟瞟一眼高德ABot全栈具身技术体系，最底层的就是数据。

数据层

模型层

Agent层

但如果你只看到“数据”，那就错过了高德真正的杀手锏——

它没有停留在“数据多”，而是构建了一个“物理优先、动作可控、闭环进化”的机器人世界操作系统。

这是一个从“视觉渲染范式”向“可微分物理引擎范式”的根本性迁移。

当其他模型还在生成“看起来像”的视频时，高德的ABot-World已经在输出“符合物理规律”的动态变化过程。

它不只告诉你“发生了什么”，更告诉你“为什么发生”、“如果这样做会发生什么”。

而这，才是它成为全球唯一三项指标（物理合规性/动作可控性/零样本泛化）全面SOTA的真正原因。

所以，与其说高德赢在“数据”，不如说它赢在范式创新+系统工程+物理智能内核。

核心解决思路：可交互世界模型

具体来说，面对“如何让机器人理解真实物理世界”这一终极挑战，高德没有选择传统的“采集→标注→训练”路径，而是另辟蹊径——

它没有去“收集数据”，而是去“重建物理世界”。

传统方法要么靠人拍（众包），要么靠机器跑（遥控），成本高、效率低、覆盖窄。

而高德的答案是：

与其等待机器人在真实世界中缓慢积累经验，不如先在高保真的数字世界中，高效、批量地生产具身智能所需的一切物理交互场景。

而这，正是高德推出的可交互世界模型ABot-World的核心使命——

构建一个可交互、可推演、可进化的机器人世界操作系统。

等等，这不就是数据合成、数据仿真那一套吗？

继续深挖才发现，虽然二者思路看起来相似，但底层逻辑其实不太一样。

个人理解，合成仿真有点像“照猫画虎”，目标是让模拟尽可能逼近真实。

而高德恰恰相反，它不是从零去模拟真实，而是基于现成的真实世界数据，把场景还原出来拿给机器人用。

所以，哪个更精准就不用多说了吧…

说实话，对高德来讲，“精密重建与理解物理世界”几乎就是自己的看家本领——

毕竟它每天都在做的，就是把来自卫星、街景车、众包设备的大量数据，一点点拼起来，变成一个能被机器理解和计算的数字世界。

emmm……光看文字可能还有点抽象，但转念一想：

这不就是我最近骑行时打开高德看到的画面吗？

只不过以前是给人交互，现在则更往底层走——变成了可以让机器“理解”和“交互”的训练环境。

到这里，我已经搞懂高德ABot-World背后的原理了，但我想知道的可不止原理——

具体方法论呢？？

所以我又接着扒了一下高德ABot-World的具体运作过程。

具体落地：一套双引擎架构

先从最直观的外观说起，ABot-World采用的是双引擎驱动架构：

ABot-3DGS

ABot-PhysWorld

一开始还以为这不过是简单的“数据生成+模型训练”，但看完才发现，它这是一个完整的物理智能操作系统。

先说ABot-3DGS。

都工厂了，你就知道高德这是在对传统那套“贵、慢、覆盖不全”的数据生产方式，来了一次彻底的重拳出击。

具体来说，它这次干了这样一件事：

以高德积累的厘米级城市、道路、室内空间数据+真实轨迹数据为基础，结合前沿的3DGS技术，构建可编程的数字孪生空间。

划重点，可编程。说白了就是，现在你可以随心所欲生产数据了。

在ABot-3DGS里，数据不再受制于采集条件——任意视角、光照、遮挡状态都可以直接生成，机器人形态也能灵活切换，不同执行体之间的差异被抹平。

更关键的是，这套体系可以系统性补齐那些过去最难覆盖的部分：

长尾交互场景（也就是机器人容易翻车的地方）。

通过大规模组合与仿真，极端情况、突发干扰都能提前构造出来，最终把覆盖率推到99%。

就是说，模型最容易出问题的那一小撮情况，基本都被提前见过、练过了。

还有一个更关键的突破——

这里的“空间”不是只有几何外观，而是带物理属性的。每个物体都会被赋予质量、摩擦系数等参数，从一开始就构成一个可计算、可干预的物理环境。

啥叫可干预？其实就是通过编程改参数。

比如把一个物体的质量调大，机器人抓取时需要的力度、轨迹都会随之改变；把地面的摩擦系数调低，同样的动作就可能打滑失败。

于是你发现没，ABot-3DGS已经不是数据增强工具，而是在主动创造一个比现实更丰富、更可控、更物理一致的“训练宇宙”。

好，现在我已经明白ABot-3DGS可以解决“数据稀缺”的问题了，但我还是不清楚其中的细节：

高德积累的那些真实时空数据，是怎么一步步变成“机器人能用的训练材料”的？

顺着网线再扒了一圈，脑海里自动浮现了这样一句口号：一翻译二重建三Run。

“一翻译”是指先把数据转成机器能读懂的“多模态Clip”。

比如骑车经过一个路口，高德记录下来的不只是“一张图”，而是一整套信息——

包括路口长什么样（图像）、红绿灯在哪（空间位置）、现在是红灯还是绿灯（状态）、你是直行还是准备转弯（行为），甚至还包括周围有没有行人、车辆在动。

所有东西打包在一起就是一个Clip，而高德手里有千万级这样的Clip。

当机器拿到这些信息后，ABot-3DGS就能把路口、街道、商场这些地方重建出来，形成万级规模的3D真实场景。

P.S. 看了下万级规模的概念，基本上能覆盖99%的典型生活场景了。

而且由于前一步拿到的信息都是自带物理规则和空间逻辑的，所以这里的3D数字场景也都是“活”的。

然后就是最后一步——Run起来。

把机器人丢进去，让它在里面走一遍、做一遍，千万级训练轨迹数据，就这么批量生成。

到这里，剩下的问题就只有一个了：

怎么解决“懂物理”这个行业公认的老大难？

ABot-PhysWorld为此而生。

它基于14B参数的DiT主干构建，本质是一个物理思维引擎，回答的是机器人最核心的问题：

“如果我这样动，接下来会发生什么？”

为了打造ABot-PhysWorld，高德做了三件不同寻常的事：

数据层面，高德精选300万条真实操作视频，用VLM+LLM双阶段标注，构建四层级物理语义结构（意图→动作→轨迹→物理关系），奠定因果推理基础。

简单来说，就是将数据拆解成机器人更易“消化”的结构化信息：

宏观层

中观层

微观层

场景层

看到没，这套标注流程不仅在告诉机器人“发生了什么”，更在解释“为什么发生”。

训练层面，高德摒弃传统MLE（像素相似度优化），引入“物理判别机制”。

所谓MLE，是指给模型看大量真实视频，让它预测“下一帧应该长什么样”，预测得越像真实的那一帧（像素差异越小），得分越高。

换言之，这一机制下模型只关心“画面对不对”，不关心“物理对不对”。

所以高德通过两个核心组件，把优化目标从“像素相似度”转向“物理一致性”：

Proposer module

Scorer module

然后用Diffusion-DPO强化合规行为——

物理正确就奖励，物理错误就扣分。

反复纠正下来，模型自然学会了“什么动作不违反物理”。

至此，ABot-PhysWorld已经能够根据输入的末端位姿和夹爪状态，推演出未来的时空动力学变化——指令即因果，不再只是像素层面的“看起来像”。

输出层面，ABot-PhysWorld的每一帧不仅是像素，更是包含质量、接触力场、惯性张量的可微分物理状态快照，支持“动作条件化推演”与“零样本泛化”。

这意味着，给它一个动作指令（比如“下降5cm、夹爪闭合”），它就能精准算出接下来会发生什么，而不是靠“猜”。

哪怕遇到从没见过的物体或机器人，它也能根据质量、摩擦、惯性这些通用物理规律做出合理判断，不需要重新训练。

这三招下去，结果是，那些困扰行业已久的“低级错误”开始从根源上消失了——

物体不会穿透、夹爪不会无接触抓取、动作不会反重力悬浮。

因为，机器人已经不再是机械执行指令了，它开始知道“为什么不能这么做”。

而当把两个引擎放在一起，你会发现ABot-World内部已经形成了一个持续增强的“数据-模型”飞轮。

ABot-3DGS负责造数据，ABot-PhysWorld负责学物理——

前者不断生成高质量训练材料，后者不断提升对真实世界的理解。

但这个飞轮不止于此。

ABot-World不是一个静态模型，而是一个具备自我修正能力的认知基座——

它还能接入真实世界的执行反馈，让自己越用越准。

具体来说，它支持完整的VLA闭环（预测→执行→反馈→自我修正）。

比如机器人根据ABot-World的推演去抓杯子，结果实际执行中夹爪滑脱了。这个误差信号会立刻回传给ABot-PhysWorld，模型自动调整参数，下次预测就会更精准。

对整个行业来说，这种“自生长、自修正、自适应”的能力，意味着机器人不再依赖人类演示，而是能在真实环境中持续进化。

而这，或许才是AGI时代机器人应有的“操作系统级”能力。

到这里，我对高德如何使用自己的数据已经很清晰了，咱捋一捋：

核心解决思路是“可交互世界模型”，世界模型的数据来自ABot-3DGS，经“一翻译二重建三Run”加工成训练材料，物理对齐则交给ABot-PhysWorld完成。

这一整套下来，高德本质上其实干了两件事：

一是把数据生产成本打下来了，二是把“物理正确”这件事，真正嵌进了系统里。

成本下降，意味着能喂给模型的数据量可以做到足够大；物理正确，意味着喂进去的数据质量足够真。

当“量大”和“真实”同时满足，模型看到的不再是零散样本，而是接近真实世界分布的数据——

于是它学到的也不再是“某几个场景的解法”，而是更通用的物理规律。

这样一来，具身智能最后的大BOSS——泛化问题，也就真正有了被攻克的可能。

就是说，数据开始反过来定义模型能力本身以及边界了……

为什么是高德？

看到这里，估计大家和我一样，终于反应过来高德凭啥跑到具身赛道前列了。

说白了，这不是一次跨界，而是一次升维：

从给“人”导航，到给“机器人”构建物理世界的操作系统。

高德真正的护城河，从来不只是“数据多”——

还有过去地图时代练出来的空间理解、地图构建、实时更新能力，这些共同构成了它难以被复制的底气。

这当中，尤为值得一提的就是一张关键王牌：业界领先的POI（兴趣点）数据库和路网语义信息。

说人话就是，高德给ABot-World提供的数据都是带“语义”的——

不只是几何轨迹，还有“这里是星巴克的入口”、“前方是人行横道”、“左转50米是停车场出口”等语义锚点。

为什么这很重要？

因为行业里大多数机器人的导航训练，用的只有几何坐标和视觉特征。

机器人只是知其然，而不知其所以然。

它可以学会从A走到B，但很难理解为什么这里要绕行、为什么这里要停一下、为什么这条路更安全。一旦环境稍微变化，比如多了行人、临时施工、规则调整，就很容易出错。

而带语义的数据，相当于把“规则”和“常识”一起教给它。

这也是为什么，它更容易直接落到真实世界里用。

恰逢北京亦庄机器人半马，高德也带着它的四足机器狗亮相了——

它已经能帮助盲人朋友走出家门，实现精准导航。

实际上，抛开所有技术不谈，从地图时代到现在，高德的角色其实并没有变——

以前，它是连接人和现实世界的基础设施；现在，它开始变成连接机器人和物理世界的基础设施。

只不过服务对象变了，能力边界被放大了。

当然更重要的是，高德已经决定把ABot-World开源了。

它正提供一个统一的、物理合规的、可进化的机器人世界模型操作系统，让所有开发者都能在其上构建自己的Agent、训练自己的机器人。

从这个角度看，高德这次亮剑的并不只是一款产品，而是一个面向下一代机器人智能的底层平台。

有了这个平台，行业就不用再各自重复造轮子了，以前数据不够、仿真又不够真的问题，也会被系统性缓解。

由此我们看到，一个统一的“操作系统”正在成型，而生态也将围绕这一底座快速收敛并加速爆发。

只能说，高德的心思不要太好懂（doge）——

一边把底座铺好，一边把生态带起来。

等大家都在这套体系上跑起来，它自然也就站在了具身赛道最核心的位置。

One More Thing

2026年，具身智能赛道依然热火朝天，融资纪录不断刷新。

但历史经验告诉我们：

当行业在底层基础设施上开始成型，局面就会迅速收敛。

就像TCP/IP统一了网络连接方式，Linux成为事实上的操作系统底座，云计算把算力变成公共资源——

现在的具身智能，正站在从“百花齐放”走向“生态收敛”的临界点。

而高德，已经率先亮剑。

横扫15项SOTA、“拿下全球唯一三项指标全面领先”、发布首个“物理优先”的世界模型操作系统——

这些不只是数字和称号，而是它已经站上牌桌的证明。

站在高德的角度而言——

无论最终谁能胜出，它都已经为行业铺好了通往AGI的第一块基石。

（好好好，原来你小汁打的是这个主意…）