一水 发自 凹非寺
量子位 | 公众号 QbitAI
等等——你是说,高德也闯入具身智能赛道了。
咱品,咱细品。一个国民级导航APP,怎么就和机器人、机器狗这些铁家伙联系起来了。
难道说,高德也开始跟风搞噱头了??
细一吃瓜才知道,误会了家人们:
这件事并非噱头,人家不仅有实打实的东西,而且成绩还位列全球第一梯队。
揭开面纱你会看到,高德这次带来了首个面向AGI的全栈具身技术体系ABot——
AGI、全栈、具身,这几个词我都懂,但放在一起到底啥意思?
再一看才明白,原来这是一套让机器人/机器狗(当然也不止这些),从炫技表演到真正走进现实世界帮大家干活的完整解决方案。
大多数行业玩家还在卷单点突破的时候,高德却率先把数据、模型、Agent从下到上全打通了。
而且得益于地图时代攒下的底层数据优势,其世界模型近期在依托CVPR 2026 Video World Model Workshop举办的国际挑战赛中,分数超过谷歌英伟达。ABot体系横扫具身智能全球15项SOTA,跻身全球第一梯队。
看到这儿,估计你和我一样好奇:
一个做导航的,凭什么能在具身智能赛道跑到前面?
(别急,咱火速开扒gogogo)
答案,很多人第一反应可能是“数据”。
毕竟瞟一眼高德ABot全栈具身技术体系,最底层的就是数据。
但如果你只看到“数据”,那就错过了高德真正的杀手锏——
它没有停留在“数据多”,而是构建了一个“物理优先、动作可控、闭环进化”的机器人世界操作系统。
这是一个从“视觉渲染范式”向“可微分物理引擎范式”的根本性迁移。
当其他模型还在生成“看起来像”的视频时,高德的ABot-World已经在输出“符合物理规律”的动态变化过程。
它不只告诉你“发生了什么”,更告诉你“为什么发生”、“如果这样做会发生什么”。
而这,才是它成为全球唯一三项指标(物理合规性/动作可控性/零样本泛化)全面SOTA的真正原因。
所以,与其说高德赢在“数据”,不如说它赢在范式创新+系统工程+物理智能内核。
核心解决思路:可交互世界模型
具体来说,面对“如何让机器人理解真实物理世界”这一终极挑战,高德没有选择传统的“采集→标注→训练”路径,而是另辟蹊径——
它没有去“收集数据”,而是去“重建物理世界”。
传统方法要么靠人拍(众包),要么靠机器跑(遥控),成本高、效率低、覆盖窄。
而高德的答案是:
与其等待机器人在真实世界中缓慢积累经验,不如先在高保真的数字世界中,高效、批量地生产具身智能所需的一切物理交互场景。
而这,正是高德推出的可交互世界模型ABot-World的核心使命——
构建一个可交互、可推演、可进化的机器人世界操作系统。
等等,这不就是数据合成、数据仿真那一套吗?
继续深挖才发现,虽然二者思路看起来相似,但底层逻辑其实不太一样。
个人理解,合成仿真有点像“照猫画虎”,目标是让模拟尽可能逼近真实。
而高德恰恰相反,它不是从零去模拟真实,而是基于现成的真实世界数据,把场景还原出来拿给机器人用。
所以,哪个更精准就不用多说了吧…
说实话,对高德来讲,“精密重建与理解物理世界”几乎就是自己的看家本领——
毕竟它每天都在做的,就是把来自卫星、街景车、众包设备的大量数据,一点点拼起来,变成一个能被机器理解和计算的数字世界。
emmm……光看文字可能还有点抽象,但转念一想:
这不就是我最近骑行时打开高德看到的画面吗?
只不过以前是给人交互,现在则更往底层走——变成了可以让机器“理解”和“交互”的训练环境。
到这里,我已经搞懂高德ABot-World背后的原理了,但我想知道的可不止原理——
具体方法论呢??
所以我又接着扒了一下高德ABot-World的具体运作过程。
具体落地:一套双引擎架构
先从最直观的外观说起,ABot-World采用的是双引擎驱动架构:
一开始还以为这不过是简单的“数据生成+模型训练”,但看完才发现,它这是一个完整的物理智能操作系统。
先说ABot-3DGS。
都工厂了,你就知道高德这是在对传统那套“贵、慢、覆盖不全”的数据生产方式,来了一次彻底的重拳出击。
具体来说,它这次干了这样一件事:
以高德积累的厘米级城市、道路、室内空间数据+真实轨迹数据为基础,结合前沿的3DGS技术,构建可编程的数字孪生空间。
划重点,可编程。说白了就是,现在你可以随心所欲生产数据了。
在ABot-3DGS里,数据不再受制于采集条件——任意视角、光照、遮挡状态都可以直接生成,机器人形态也能灵活切换,不同执行体之间的差异被抹平。
更关键的是,这套体系可以系统性补齐那些过去最难覆盖的部分:
长尾交互场景(也就是机器人容易翻车的地方)。
通过大规模组合与仿真,极端情况、突发干扰都能提前构造出来,最终把覆盖率推到99%。
就是说,模型最容易出问题的那一小撮情况,基本都被提前见过、练过了。
还有一个更关键的突破——
这里的“空间”不是只有几何外观,而是带物理属性的。每个物体都会被赋予质量、摩擦系数等参数,从一开始就构成一个可计算、可干预的物理环境。
啥叫可干预?其实就是通过编程改参数。
比如把一个物体的质量调大,机器人抓取时需要的力度、轨迹都会随之改变;把地面的摩擦系数调低,同样的动作就可能打滑失败。
于是你发现没,ABot-3DGS已经不是数据增强工具,而是在主动创造一个比现实更丰富、更可控、更物理一致的“训练宇宙”。
好,现在我已经明白ABot-3DGS可以解决“数据稀缺”的问题了,但我还是不清楚其中的细节:
高德积累的那些真实时空数据,是怎么一步步变成“机器人能用的训练材料”的?
顺着网线再扒了一圈,脑海里自动浮现了这样一句口号:一翻译二重建三Run。
“一翻译”是指先把数据转成机器能读懂的“多模态Clip”。
比如骑车经过一个路口,高德记录下来的不只是“一张图”,而是一整套信息——
包括路口长什么样(图像)、红绿灯在哪(空间位置)、现在是红灯还是绿灯(状态)、你是直行还是准备转弯(行为),甚至还包括周围有没有行人、车辆在动。
所有东西打包在一起就是一个Clip,而高德手里有千万级这样的Clip。
当机器拿到这些信息后,ABot-3DGS就能把路口、街道、商场这些地方重建出来,形成万级规模的3D真实场景。
P.S. 看了下万级规模的概念,基本上能覆盖99%的典型生活场景了。
而且由于前一步拿到的信息都是自带物理规则和空间逻辑的,所以这里的3D数字场景也都是“活”的。
然后就是最后一步——Run起来。
把机器人丢进去,让它在里面走一遍、做一遍,千万级训练轨迹数据,就这么批量生成。
到这里,剩下的问题就只有一个了:
怎么解决“懂物理”这个行业公认的老大难?
ABot-PhysWorld为此而生。
它基于14B参数的DiT主干构建,本质是一个物理思维引擎,回答的是机器人最核心的问题:
“如果我这样动,接下来会发生什么?”
为了打造ABot-PhysWorld,高德做了三件不同寻常的事:
数据层面,高德精选300万条真实操作视频,用VLM+LLM双阶段标注,构建四层级物理语义结构(意图→动作→轨迹→物理关系),奠定因果推理基础。
简单来说,就是将数据拆解成机器人更易“消化”的结构化信息:
看到没,这套标注流程不仅在告诉机器人“发生了什么”,更在解释“为什么发生”。
训练层面,高德摒弃传统MLE(像素相似度优化),引入“物理判别机制”。
所谓MLE,是指给模型看大量真实视频,让它预测“下一帧应该长什么样”,预测得越像真实的那一帧(像素差异越小),得分越高。
换言之,这一机制下模型只关心“画面对不对”,不关心“物理对不对”。
所以高德通过两个核心组件,把优化目标从“像素相似度”转向“物理一致性”:
然后用Diffusion-DPO强化合规行为——
物理正确就奖励,物理错误就扣分。
反复纠正下来,模型自然学会了“什么动作不违反物理”。
至此,ABot-PhysWorld已经能够根据输入的末端位姿和夹爪状态,推演出未来的时空动力学变化——指令即因果,不再只是像素层面的“看起来像”。
输出层面,ABot-PhysWorld的每一帧不仅是像素,更是包含质量、接触力场、惯性张量的可微分物理状态快照,支持“动作条件化推演”与“零样本泛化”。
这意味着,给它一个动作指令(比如“下降5cm、夹爪闭合”),它就能精准算出接下来会发生什么,而不是靠“猜”。
哪怕遇到从没见过的物体或机器人,它也能根据质量、摩擦、惯性这些通用物理规律做出合理判断,不需要重新训练。
这三招下去,结果是,那些困扰行业已久的“低级错误”开始从根源上消失了——
物体不会穿透、夹爪不会无接触抓取、动作不会反重力悬浮。
因为,机器人已经不再是机械执行指令了,它开始知道“为什么不能这么做”。
而当把两个引擎放在一起,你会发现ABot-World内部已经形成了一个持续增强的“数据-模型”飞轮。
ABot-3DGS负责造数据,ABot-PhysWorld负责学物理——
前者不断生成高质量训练材料,后者不断提升对真实世界的理解。
但这个飞轮不止于此。
ABot-World不是一个静态模型,而是一个具备自我修正能力的认知基座——
它还能接入真实世界的执行反馈,让自己越用越准。
具体来说,它支持完整的VLA闭环(预测→执行→反馈→自我修正)。
比如机器人根据ABot-World的推演去抓杯子,结果实际执行中夹爪滑脱了。这个误差信号会立刻回传给ABot-PhysWorld,模型自动调整参数,下次预测就会更精准。
对整个行业来说,这种“自生长、自修正、自适应”的能力,意味着机器人不再依赖人类演示,而是能在真实环境中持续进化。
而这,或许才是AGI时代机器人应有的“操作系统级”能力。
到这里,我对高德如何使用自己的数据已经很清晰了,咱捋一捋:
核心解决思路是“可交互世界模型”,世界模型的数据来自ABot-3DGS,经“一翻译二重建三Run”加工成训练材料,物理对齐则交给ABot-PhysWorld完成。
这一整套下来,高德本质上其实干了两件事:
一是把数据生产成本打下来了,二是把“物理正确”这件事,真正嵌进了系统里。
成本下降,意味着能喂给模型的数据量可以做到足够大;物理正确,意味着喂进去的数据质量足够真。
当“量大”和“真实”同时满足,模型看到的不再是零散样本,而是接近真实世界分布的数据——
于是它学到的也不再是“某几个场景的解法”,而是更通用的物理规律。
这样一来,具身智能最后的大BOSS——泛化问题,也就真正有了被攻克的可能。
就是说,数据开始反过来定义模型能力本身以及边界了……
看到这里,估计大家和我一样,终于反应过来高德凭啥跑到具身赛道前列了。
说白了,这不是一次跨界,而是一次升维:
从给“人”导航,到给“机器人”构建物理世界的操作系统。
高德真正的护城河,从来不只是“数据多”——
还有过去地图时代练出来的空间理解、地图构建、实时更新能力,这些共同构成了它难以被复制的底气。
这当中,尤为值得一提的就是一张关键王牌:业界领先的POI(兴趣点)数据库和路网语义信息。
说人话就是,高德给ABot-World提供的数据都是带“语义”的——
不只是几何轨迹,还有“这里是星巴克的入口”、“前方是人行横道”、“左转50米是停车场出口”等语义锚点。
为什么这很重要?
因为行业里大多数机器人的导航训练,用的只有几何坐标和视觉特征。
机器人只是知其然,而不知其所以然。
它可以学会从A走到B,但很难理解为什么这里要绕行、为什么这里要停一下、为什么这条路更安全。一旦环境稍微变化,比如多了行人、临时施工、规则调整,就很容易出错。
而带语义的数据,相当于把“规则”和“常识”一起教给它。
这也是为什么,它更容易直接落到真实世界里用。
恰逢北京亦庄机器人半马,高德也带着它的四足机器狗亮相了——
它已经能帮助盲人朋友走出家门,实现精准导航。
实际上,抛开所有技术不谈,从地图时代到现在,高德的角色其实并没有变——
以前,它是连接人和现实世界的基础设施;现在,它开始变成连接机器人和物理世界的基础设施。
只不过服务对象变了,能力边界被放大了。
当然更重要的是,高德已经决定把ABot-World开源了。
它正提供一个统一的、物理合规的、可进化的机器人世界模型操作系统,让所有开发者都能在其上构建自己的Agent、训练自己的机器人。
从这个角度看,高德这次亮剑的并不只是一款产品,而是一个面向下一代机器人智能的底层平台。
有了这个平台,行业就不用再各自重复造轮子了,以前数据不够、仿真又不够真的问题,也会被系统性缓解。
由此我们看到,一个统一的“操作系统”正在成型,而生态也将围绕这一底座快速收敛并加速爆发。
只能说,高德的心思不要太好懂(doge)——
一边把底座铺好,一边把生态带起来。
等大家都在这套体系上跑起来,它自然也就站在了具身赛道最核心的位置。
2026年,具身智能赛道依然热火朝天,融资纪录不断刷新。
但历史经验告诉我们:
当行业在底层基础设施上开始成型,局面就会迅速收敛。
就像TCP/IP统一了网络连接方式,Linux成为事实上的操作系统底座,云计算把算力变成公共资源——
现在的具身智能,正站在从“百花齐放”走向“生态收敛”的临界点。
而高德,已经率先亮剑。
横扫15项SOTA、“拿下全球唯一三项指标全面领先”、发布首个“物理优先”的世界模型操作系统——
这些不只是数字和称号,而是它已经站上牌桌的证明。
站在高德的角度而言——
无论最终谁能胜出,它都已经为行业铺好了通往AGI的第一块基石。
(好好好,原来你小汁打的是这个主意…)