BEV跨维智能 Dexterity-BEV 把机器人数据带上 Scaling 快车道

据量子位报道，跨维智能推出 Dexterity-BEV，把自动驾驶领域验证过的 BEV 范式系统性地推到具身智能数据基建层。它构建一个统一 BEV 对齐坐标系，让不同相机、不同机器人本体、不同操作者采集的数据被压进同一个物理空间。具身智能正面临和自动驾驶几年前同样的困境——没有统一空间，数据堆得越多就越是熵暴。Dexterity-BEV 让机器人数据第一次真正具备可规模化训练的空间底座。

BEV 杀入具身智能跨维智能 Dexterity-BEV 封面, 2026-06-12

一、先建空间，再堆数据

自动驾驶行业过去几年已经证明了一件事：谁先把真实物理世界组织进统一的数字空间，谁就先拿到规模化的入场券。

早期的纯视觉多相机方案，每个相机自己感知自己的，前摄看前面、侧摄看侧面，各出各的检测结果，再拼到一起交给规划系统。问题是拼出来的东西在图像坐标里，不在物理世界里。视角一变、光线一变、场景一变，性能就掉。

BEV（Bird’s-Eye View）就是那把钥匙。它真正改变行业的地方不是给了工程师一张鸟瞰图，而是把多相机、多传感器、多任务输出统一压进了一个可被规划系统直接消费的物理坐标系。自动驾驶因此完成了一次关键跃迁。

今天，具身智能正站在同一个路口。没有统一空间，数据堆得越多就越是混乱。

二、统一空间坐标系

跨维智能提出的 Dexterity-BEV，正是要在具身智能里重做一次这样的重构。

今天的具身智能行业非常热闹。机器人本体不断推陈出新，新的数据集接连发布。文本可以被统一组织成 token，图像也有相对稳定的数据范式，但机器人数据天然异构——可能同时包含多视角图像、深度、相机参数、关节状态、末端轨迹、语言指令等多种维度。

Dexterity-BEV 的思路非常直接：把多来源、多视角、多本体的机器人数据统一对齐到一个 BEV 三维空间里。它的关键是构建一个统一 BEV 对齐坐标系，让不同相机看到的物体、空间关系和操作目标，都能被放进同一个俯视参考空间。

可以把它理解成一个虚拟正正交相机。不管真实相机装在哪里、从哪个角度拍，最终数据都会被转化到同一个俯视空间里。这样，同一个物理任务就不再是一堆互不兼容的二维图像。

三、不放弃 2D 大模型，给 2D 大模型补 3D 坐标

具身智能行业现在有一个两难：纯 2D VLA 有语义能力但空间不够；重型 3D 方法有几何信息但成本高、训练难。

Dexterity-BEV 没有选择推倒重来。它保留多视角 RGB 输入，继续复用成熟的二维视觉编码器和视觉语言模型，同时通过顶点图和顶点谱，给每个视觉 token 注入三维空间位置。它不是重新造一个昂贵的 3D 系统，而是在已有视觉模型体系上补了一层空间坐标。

对于有深度信息的设备，它可以利用深度图和相机标定生成像素级三维顶点表示；对于纯 RGB 相机，它可以通过顶点谱机制为每个像素构建一组三维位置假设，再编码进视觉特征中。

机器人数据真正难的地方在于动作也不统一。不同机器人本体差异巨大。Dexterity-BEV 的处理方式，是把动作从具体关节里解放出来，学习末端执行器在统一 BEV 空间中应该去哪里、以什么姿态接近物体。

这就形成了一个非常漂亮的闭环：视觉输入在 BEV 空间里，机器人状态在 BEV 空间里，目标动作也在 BEV 空间里。

四、跨轨迹时序对齐

具身数据还有第三种混乱：时间。同一个任务，不同操作者做得快慢不同；不同机器人执行速度不同。

Dexterity-BEV 在数据管线中加入了跨轨迹时序对齐机制，对不同机器人、不同操作者、不同数据集里的轨迹进行时间尺度规整。它不是要抹掉任务动作结构，而是尽量减少谁操作得快、谁操作得慢这种无意义差异。

所以 Dexterity-BEV 做的不是单点优化，而是一套系统性数据基建：空间对齐、动作对齐、时序对齐、数据管线对齐。

五、在扰动下保持稳定

Dexterity-BEV 的实验设计也很有意思。它不是只在固定场景里刷一个好看的分数，而是专门去测那些传统 VLA 容易翻车的情况：相机视角变化、机器人基座扰动、场景布局变化、跨机器人平台迁移。

在仿真中，Dexterity-BEV 在 LIBERO 和 RoboTwin 2.0 上与 π0、X-VLA 等强基线对比。在大幅扰动的设置下，传统 2D VLA 方法成功率明显下滑，而 Dexterity-BEV 仍能保持稳定表现。

在真实机器人上，Dexterity-BEV 覆盖了四类双臂平台和多个长程任务，包括折叠纸盒、折布、舀爆米花、递书等。这类任务更接近真实世界，也更能暴露模型到底是在记画面，还是在理解物理。

六、把BEV红利从自动驾驶推到具身智能

Dexterity-BEV 最重要的意义不只是一个模型效果提升，更像是具身智能从堆数据阶段进入建数据秩序阶段的标志。过去行业很热衷讨论：谁采了更多小时数据，谁有更多机器人。但如果数据不能统一训练、不能跨机迁移，数据规模越大反而越像孤岛。

Dexterity-BEV 提供的是另一种思路：先建立统一物理空间，再谈数据规模化。如果说过去具身智能还在看见世界，那么 BEV 进入之后它开始有机会组织世界。这可能是具身模型真正 scale 之前必须补上的一层数据基建。

本文由 AI 协助撰写，最终内容由本站编辑团队审核。

BEV跨维智能 Dexterity-BEV 把机器人数据带上 Scaling 快车道

一、先建空间，再堆数据

二、统一空间坐标系

三、不放弃 2D 大模型，给 2D 大模型补 3D 坐标

四、跨轨迹时序对齐

五、在扰动下保持稳定

六、把BEV红利从自动驾驶推到具身智能

发表回复取消回复

标签云

最近文章

分类

BEV跨维智能 Dexterity-BEV 把机器人数据带上 Scaling 快车道

一、先建空间，再堆数据

二、统一空间坐标系

三、不放弃 2D 大模型，给 2D 大模型补 3D 坐标

四、跨轨迹时序对齐

五、在扰动下保持稳定

六、把BEV红利从自动驾驶推到具身智能

相关文章

发表回复 取消回复

发表回复取消回复