据量子位报道,跨维智能推出 Dexterity-BEV,把自动驾驶领域验证过的 BEV 范式系统性地推到具身智能数据基建层。它构建一个统一 BEV 对齐坐标系,让不同相机、不同机器人本体、不同操作者采集的数据被压进同一个物理空间。具身智能正面临和自动驾驶几年前同样的困境——没有统一空间,数据堆得越多就越是熵暴。Dexterity-BEV 让机器人数据第一次真正具备可规模化训练的空间底座。

BEV 杀入具身智能 跨维智能 Dexterity-BEV 封面, 2026-06-12

一、先建空间,再堆数据

自动驾驶行业过去几年已经证明了一件事:谁先把真实物理世界组织进统一的数字空间,谁就先拿到规模化的入场券。

早期的纯视觉多相机方案,每个相机自己感知自己的,前摄看前面、侧摄看侧面,各出各的检测结果,再拼到一起交给规划系统。问题是拼出来的东西在图像坐标里,不在物理世界里。视角一变、光线一变、场景一变,性能就掉。

BEV(Bird’s-Eye View)就是那把钥匙。它真正改变行业的地方不是给了工程师一张鸟瞰图,而是把多相机、多传感器、多任务输出统一压进了一个可被规划系统直接消费的物理坐标系。自动驾驶因此完成了一次关键跃迁。

今天,具身智能正站在同一个路口。没有统一空间,数据堆得越多就越是混乱。

二、统一空间坐标系

跨维智能提出的 Dexterity-BEV,正是要在具身智能里重做一次这样的重构。

今天的具身智能行业非常热闹。机器人本体不断推陈出新,新的数据集接连发布。文本可以被统一组织成 token,图像也有相对稳定的数据范式,但机器人数据天然异构——可能同时包含多视角图像、深度、相机参数、关节状态、末端轨迹、语言指令等多种维度。

Dexterity-BEV 的思路非常直接:把多来源、多视角、多本体的机器人数据统一对齐到一个 BEV 三维空间里。它的关键是构建一个统一 BEV 对齐坐标系,让不同相机看到的物体、空间关系和操作目标,都能被放进同一个俯视参考空间。

可以把它理解成一个虚拟正正交相机。不管真实相机装在哪里、从哪个角度拍,最终数据都会被转化到同一个俯视空间里。这样,同一个物理任务就不再是一堆互不兼容的二维图像。

三、不放弃 2D 大模型,给 2D 大模型补 3D 坐标

具身智能行业现在有一个两难:纯 2D VLA 有语义能力但空间不够;重型 3D 方法有几何信息但成本高、训练难。

Dexterity-BEV 没有选择推倒重来。它保留多视角 RGB 输入,继续复用成熟的二维视觉编码器和视觉语言模型,同时通过顶点图和顶点谱,给每个视觉 token 注入三维空间位置。它不是重新造一个昂贵的 3D 系统,而是在已有视觉模型体系上补了一层空间坐标。

对于有深度信息的设备,它可以利用深度图和相机标定生成像素级三维顶点表示;对于纯 RGB 相机,它可以通过顶点谱机制为每个像素构建一组三维位置假设,再编码进视觉特征中。

机器人数据真正难的地方在于动作也不统一。不同机器人本体差异巨大。Dexterity-BEV 的处理方式,是把动作从具体关节里解放出来,学习末端执行器在统一 BEV 空间中应该去哪里、以什么姿态接近物体。

这就形成了一个非常漂亮的闭环:视觉输入在 BEV 空间里,机器人状态在 BEV 空间里,目标动作也在 BEV 空间里。

四、跨轨迹时序对齐

具身数据还有第三种混乱:时间。同一个任务,不同操作者做得快慢不同;不同机器人执行速度不同。

Dexterity-BEV 在数据管线中加入了跨轨迹时序对齐机制,对不同机器人、不同操作者、不同数据集里的轨迹进行时间尺度规整。它不是要抹掉任务动作结构,而是尽量减少谁操作得快、谁操作得慢这种无意义差异。

所以 Dexterity-BEV 做的不是单点优化,而是一套系统性数据基建:空间对齐、动作对齐、时序对齐、数据管线对齐。

五、在扰动下保持稳定

Dexterity-BEV 的实验设计也很有意思。它不是只在固定场景里刷一个好看的分数,而是专门去测那些传统 VLA 容易翻车的情况:相机视角变化、机器人基座扰动、场景布局变化、跨机器人平台迁移。

在仿真中,Dexterity-BEV 在 LIBERO 和 RoboTwin 2.0 上与 π0、X-VLA 等强基线对比。在大幅扰动的设置下,传统 2D VLA 方法成功率明显下滑,而 Dexterity-BEV 仍能保持稳定表现。

在真实机器人上,Dexterity-BEV 覆盖了四类双臂平台和多个长程任务,包括折叠纸盒、折布、舀爆米花、递书等。这类任务更接近真实世界,也更能暴露模型到底是在记画面,还是在理解物理。

六、把BEV红利从自动驾驶推到具身智能

Dexterity-BEV 最重要的意义不只是一个模型效果提升,更像是具身智能从堆数据阶段进入建数据秩序阶段的标志。过去行业很热衷讨论:谁采了更多小时数据,谁有更多机器人。但如果数据不能统一训练、不能跨机迁移,数据规模越大反而越像孤岛。

Dexterity-BEV 提供的是另一种思路:先建立统一物理空间,再谈数据规模化。如果说过去具身智能还在看见世界,那么 BEV 进入之后它开始有机会组织世界。这可能是具身模型真正 scale 之前必须补上的一层数据基建。


本文由 AI 协助撰写,最终内容由本站编辑团队审核。