**论文标题**Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning机器人操作视觉-语言-动作模型三维空间对齐鸟瞰图表示跨具身泛化在机器人操作领域端到端策略结合大规模预训练的视觉-语言模型正展现出前所未有的泛化潜力。然而现有方法大多依赖二维图像输入忽略了机器人操作本质上是一个三维空间交互过程。DexForce Technology与香港中文大学深圳联合研究团队提出的Dexterity-BEV框架通过引入对齐的顶点图与顶点谱表示、构建规范化的鸟瞰图对齐坐标系以及建立全面的时空数据对齐处理流程为视觉-语言-动作模型注入了显式的三维空间感知能力在仿真环境和四种真实机器人平台上均取得了显著的性能提升。一、从二维感知到三维操作机器人策略学习的新维度近年来随着大规模语言模型和视觉-语言模型在网页级数据上展现出强大的零样本泛化能力研究社区正积极探索将这些能力迁移到机器人领域。视觉-语言-动作模型Vision-Language-Action Models简称VLA以及在此基础上发展出的世界-动作模型World-Action Models简称WAM已成为机器人策略学习的重要范式。这类模型通常以二维RGB图像作为视觉输入结合自然语言指令直接输出机器人关节角度或末端执行器位姿实现从感知到动作的端到端映射。然而这种基于二维输入的范式在实际部署中面临两个根本性挑战。第一机器人操作本质上是一个三维空间中的物理交互过程单纯依赖二维RGB图像难以充分捕捉场景中物体的空间几何关系、深度层次和遮挡结构。第二现有方法的输出空间缺乏有效的空间对齐机制不同机器人类型的关节角度表示差异巨大末端执行器位姿的坐标系约定因平台而异加之不同数据集的相机标定参数、场景布局和机器人基座位置各不相同导致策略模型需要额外克服大量与任务本质无关的分布差异。针对上述问题Dexterity-BEV研究团队提出了一套系统性的技术方案核心思想是将三维世界感知与动作输出空间统一对齐到一个共享的规范化坐标系中。该框架不仅引入了像素级的三维输入表示还创新性地采用鸟瞰图Bird’s-Eye-ViewBEV作为对齐参考帧同时建立了跨数据集、跨机器人平台、跨操作者的时空数据对齐处理流程为多视角观测、异构机器人本体和多样化轨迹数据提供了统一的表征基础。图1Dexterity-BEV整体框架示意图。该框架通过三维输入表示提升、多视角与动作空间对齐、以及轨迹时序对齐实现了跨本体、跨相机视角和跨数据集的泛化能力。二、对齐顶点图与顶点谱为二维视觉模型注入三维感知为了让预训练在二维图像数据上的视觉-语言模型能够处理三维空间信息研究团队设计了一种名为对齐顶点图Aligned Vertex Map的输入表示。具体而言对于每一帧来自第i个相机的RGB图像结合相机内参矩阵和深度图可以将每个像素反向投影到三维空间生成该相机视角下的顶点图。这种表示保留了二维图像的像素结构使得现有的二维视觉编码器可以直接处理同时每个像素位置都携带了对应的三维空间坐标信息。然而单独为每个相机视角生成顶点图并不能解决多视角之间的几何一致性问题。同一个物理三维点在不同相机视角下会呈现截然不同的局部坐标值这取决于各相机的外参矩阵。为此研究团队提出将所有相机视角的顶点图变换到一个共享的参考坐标系中。通过利用相机外参参数将每个相机帧下的顶点图变换到统一的对齐坐标系生成的对齐顶点图在保持像素级结构的同时实现了全局空间一致性。这意味着无论机器人头部相机还是腕部相机捕捉到的同一个物体表面点在经过变换后都会映射到相同的三维坐标值。在实际部署中并非所有机器人平台都配备深度传感器。为了兼容仅有RGB输入的相机研究团队进一步提出了顶点谱Vertex Spectrum机制。该方法借鉴了自动驾驶领域中多视角三维感知的技术思路为每个像素采样一组离散深度假设通过线性递增离散化策略覆盖操作空间内的深度范围。每个像素-深度组合被反向投影并变换到对齐坐标系中形成体积化的坐标网格再经由轻量级编码器处理为二维位置嵌入与对应的RGB特征进行逐元素相加。这种设计使得即使在没有深度传感器的情况下模型仍然能够感知到粗略的三维空间结构。三、鸟瞰图对齐坐标系构建视角无关的表征空间在实现对齐顶点图的基础上研究团队进一步指定了一个规范化的鸟瞰图BEV对齐帧作为统一的参考坐标系。该坐标系的选择遵循机器人操作场景的物理结构对于桌面操作任务BEV帧的原点通常设定为工作空间三维立方体区域的底部中心对于移动机器人平台则可以直接采用机器人基座坐标系。这一设计使得来自不同相机视角、不同机器人本体和不同数据集的观测与动作都可以被表达在同一套空间语言中。基于BEV帧研究团队创新性地构建了BEV图像。该图像通过对所有相机视角的彩色点云进行聚合然后执行自上而下的正交投影生成。在投影过程中系统同时计算一个与RGB BEV图像像素对齐的高度图该高度图进一步被转换为在BEV坐标系下表达的顶点图作为额外的输入通道送入策略网络。图2展示了这一机制的关键特性即使两个相机视角差异极大生成的BEV图像中物体的像素位置几乎保持一致从而为策略学习提供了视角无关的几何输入空间。图2Dexterity-BEV网络架构与BEV图像构建机制。a展示了不同相机位姿下生成的BEV图像具有高度一致性b展示了整体网络架构包括多视角输入、BEV图像合成、三维编码器、预训练VLM骨干和流匹配动作专家。在动作输出端研究团队将机器人本体感知信息和目标动作统一参数化为在BEV坐标系下的SE(3)位姿。这种表达方式不依赖于特定机器人的关节结构而是直接描述末端执行器在共享三维空间中的位置和朝向。无论是灵巧手、平行夹爪还是人形机器人的双臂其动作都可以被映射到同一套空间坐标系中进行学习和预测。这种输入-输出的三维空间对齐显著降低了策略模型需要克服的跨本体分布差异。四、时空数据对齐处理流程打通异构数据的壁垒为了让上述表示方法能够在真实的大规模异构数据集上训练研究团队开发了一套全面的数据对齐处理流程。该流程涵盖三维空间对齐和时序对齐两个维度支持内部数据集和多种公开数据集的统一处理。在三维空间对齐方面针对每个数据集研究团队将相机内参和外参统一转换为标准的OpenCV格式。对于缺乏深度测量的轨迹通过动作回放生成仿真深度图或利用视觉基础模型合成深度图像。高质量的机器人URDF模型被注册到共享的三维观测空间中并强制执行统一的工具中心点TCP坐标系约定平行夹爪的TCP统一锚定在夹爪尖端多指灵巧手配置则锚定在腕部。通过这些标准化的运动学链所有平台的末端执行器绝对SE(3)位姿都可以通过正向运动学计算得到。图3三维空间对齐数据流程可视化。展示了LIBERO、AgibotAlpha/Beta、RoboTwin 2.0、RoboMind 2.0以及内部数据集的对齐效果所有数据被统一到一个共享的三维观测空间中。在时序对齐方面研究团队观察到大多数操作任务可以视为准静态过程在一定范围内加速或减速的轨迹仍然能够完成任务。基于此他们提出将末端执行器的平移和旋转速度归一化到标准值。对于给定的轨迹段系统计算每个时间步的平移位移和旋转位移根据预定义的标准线速度和角速度重新计算归一化时间间隔。对于多臂机器人取两臂中的最大时间间隔作为统一标准。对于几乎静止的帧系统会根据其与操作任务的相关性选择保留原始时长或直接丢弃。训练时通过三次样条插值获得对齐后的动作序列。这一时序对齐方案有效消除了由于机器人硬件差异和人类遥操作速度不同带来的伪运动噪声。通过统一动作块长度和均匀分布轨迹节点不同机器人平台和不同操作者采集的轨迹数据可以在同一时序尺度上进行学习和比较。五、仿真基准测试跨本体与跨视角的泛化验证研究团队在LIBERO和RoboTwin 2.0两个仿真基准上进行了系统评估重点验证了Dexterity-BEV在跨本体泛化和视角鲁棒性方面的优势。在官方标准设置下Dexterity-BEV使用单一网络权重同时评估于两种截然不同的机器人平台LIBERO中的单臂7自由度Franka机器人和RoboTwin 2.0中的双臂12自由度Agilex机器人。实验结果显示Dexterity-BEV在LIBERO上取得了与当前主流方法相当的成功率在RoboTwin 2.0上则达到了更高的性能水平。特别值得注意的是一个移除了所有三维输入且禁用三维对齐的二维消融版本2D Ablation出现了显著的性能下降这直接验证了所提出的三维输入和对齐机制的有效性。表1仿真基准测试结果与跨本体泛化性能对比。Dexterity-BEV使用单一权重在LIBERO和RoboTwin 2.0上均取得了优异表现展现了跨不同机器人平台的强大泛化能力。为了进一步检验对相机视角变化的鲁棒性研究团队设计了一套修改版的LIBERO评估协议。在每一回合开始时第三人称相机位姿被随机扰动围绕世界z轴、光轴和倾斜角度进行随机旋转旋转范围分别达到140度、60度和60度相机到场景中心的距离在1米范围内随机变化。同时机器人基座和场景基座包括工作台和物体施加10厘米的平移扰动和5度的旋转扰动。在这种强扰动条件下使用官方设置训练的X-VLA模型和二维消融版本的成功率几乎降至零而Dexterity-BEV仍然保持了接近90%的平均成功率。表2修改版LIBERO基准测试结果评估对相机视角和机器人/场景基座位姿变化的泛化能力。Dexterity-BEV在强扰动条件下仍保持合理成功率。训练动态分析进一步揭示了三维对齐机制的优势。图4展示了Dexterity-BEV与二维消融版本的训练损失曲线对比。二维基线难以充分吸收训练数据中的位姿变化导致损失下降缓慢且波动较大而Dexterity-BEV凭借对齐的三维输入和视角不变的BEV表示能够更快收敛到更低的损失水平。图4训练损失曲线对比。Dexterity-BEV蓝色相比二维消融版本橙色展现出更快的收敛速度和更低的最终损失。六、真实世界部署四种平台与五项复杂长程任务为了验证框架在实际物理环境中的实用性和鲁棒性研究团队在四种不同的双臂硬件平台上部署了Dexterity-BEV涵盖五项涉及复杂双臂协调和多样化物体交互的长程操作任务。这些平台包括配备平行夹爪的Agilex双臂机器人、配备BrainCo Revo-2灵巧双手的DexForce W1轮式人形机器人、配备平行夹爪的DexForce W1轮式人形机器人以及配备平行夹爪的DexForce A1半人形机器人。图5四种真实机器人硬件平台与遥操作数据采集界面。aAgilex双臂平台bDexForce W1灵巧手平台cDexForce W1夹爪平台dDexForce A1半人形平台。遥操作方式包括主从跟随和基于VR的沉浸式操作。五项评估任务分别是在Agilex平台上执行的折叠快递盒Fold Mailer Box和折叠布料Fold Cloth在W1灵巧手平台上执行的舀取爆米花Scoop Popcorn在W1夹爪平台上执行的递书Handover Book以及在A1平台上执行的折叠布料Fold Cloth。这些任务涉及可变形物体、铰接物体、颗粒材料和动态人机交互对策略的空间推理能力和闭环反应性提出了极高要求。图6五项真实世界长程复杂任务的关键帧展示。从左至右依次为折叠快递盒、折叠布料、舀取爆米花、递书、折叠布料A1平台。定量结果显示Dexterity-BEV在所有五项任务上均取得了显著优于基线方法的成功率。在折叠快递盒任务中Dexterity-BEV达到76.7%的成功率相比π0的43.3%和X-VLA的56.7%有大幅提升。在折叠布料任务中Dexterity-BEV在Agilex平台上达到93.3%在A1平台上更是达到96.7%。舀取爆米花和递书任务的成功率分别达到86.7%和93.3%。表3真实世界实验定量对比结果30次试验的平均成功率。Dexterity-BEV在四项不同硬件平台上的五项复杂任务中均取得了领先表现。七、零样本泛化与动态鲁棒性超越训练分布的适应能力除了标准评估外研究团队还设计了一系列超出训练分布的测试场景以检验Dexterity-BEV的泛化边界和闭环反应能力。在折叠快递盒任务中训练时的演示数据仅包含固定朝向的标准盒子。在分布外测试中盒子被以未见过的姿态和极端偏航角放置。Dexterity-BEV利用闭环视觉伺服能力自主执行预操作重定向步骤将盒子对齐后再启动折叠序列。即使盒子在执行过程中发生滑动策略也能够从异常状态中自主恢复无需人工干预。研究团队还展示了该策略的连续多周期操作能力在完成一个盒子的折叠后双臂自动返回初始位姿新的盒子被立即引入系统可靠地执行了连续多轮无间断折叠。图7Agilex双臂平台配置与任务执行时序。左侧展示了平台硬件配置右侧展示了折叠快递盒和折叠布料两项长程任务的自主执行关键帧。图8分布外盒子折叠测试。三种未见过的初始朝向New Orientation 1/2/3均能被策略成功处理展示了强大的姿态不变性和自恢复能力。在折叠布料任务中模型仅在白色XL/XXL T恤上进行了训练。在分布外测试中系统被用于折叠米色小号衬衫、浅绿色XXL衬衫和灰色XXL衬衫。实验验证了模型能够零样本泛化到不同颜色、几何尺寸和材质刚度的衣物上无需任何额外的微调或适配。图9分布外布料折叠零样本泛化。训练仅使用白色T恤测试时成功处理米色、浅绿色和灰色等不同颜色与尺寸的衣物。在舀取爆米花任务中研究团队引入了主动的人类干扰作为对抗性测试。在机器人执行预抓取接近阶段时多名操作者动态且反复地移动目标纸杯的位置。Dexterity-BEV能够实时感知杯子的位移平滑地收回手臂重新计算空间轨迹并成功完成抓取。这种对未建模工作空间干扰的抵抗能力凸显了统一三维BEV观测表示所带来的闭环鲁棒性。图10DexForce W1人形平台与舀取爆米花任务执行。该任务要求精细的双臂协调涉及工具使用、高自由度灵巧手操作和颗粒材料估计。图11动态干扰鲁棒性测试。两名不同用户在机器人预抓取阶段随机移动目标杯子Dexterity-BEV成功重新校准运动轨迹并完成抓取。在递书任务中策略展示了多模态交互能力和语义敏感性。根据用户指定的颜色指令如递给我棕色的书或递给我蓝色的书策略能够准确识别并抓取目标书籍。在抓取阶段操作者主动移动和旋转底层书架机械臂实时重新计算相对轨迹以完成抓取。当物体被抬起并移向用户时策略持续跟踪用户手部位置直到感知到稳固的物理接触和稳定接收才打开夹爪并安全返回初始位姿。图12多模态交互式递书任务。Dexterity-BEV能够根据颜色语义指令选择目标书籍并在动态书架移动和人类手部跟踪中实现精确交互。在A1半人形平台上的折叠布料任务进一步展示了不同本体形态对策略行为特征的影响。由于A1平台的拟人化肩部构型和更大的工作空间高度其生成的手臂轨迹相比桌面式的Agilex臂更具类人特征能够更精确地提升、展平和对齐布料层产生更平整、无褶皱的折叠效果。这一观察揭示了数据多样性和本体运动学对下游策略行为风格的深刻影响。图13DexForce A1半人形平台上的布料折叠任务。展示了策略处理不同初始状态平整或揉皱的能力以及双臂协调执行复杂布料操作的轨迹。八、技术贡献总结与未来展望Dexterity-BEV框架的核心贡献可以概括为三个层面。在表示层面对齐顶点图和顶点谱机制将像素级的三维空间信息注入到二维视觉-语言模型中既保留了对预训练模型的兼容性又赋予了三维空间感知能力。在对齐层面BEV坐标系的引入和BEV图像的构建为多视角观测、机器人本体感知和动作输出提供了一个视角无关、本体无关的共享空间。在数据层面系统性的时空对齐处理流程打通了异构数据集之间的壁垒使得来自不同机器人、不同操作者和不同采集环境的轨迹数据可以在统一框架下进行联合训练。核心技术创新点对齐顶点图与顶点谱利用相机标定和可选深度信息将二维视觉输入提升到三维同时兼容无深度传感器配置BEV对齐坐标系指定规范化的鸟瞰图参考帧构建视角不变的BEV图像表示时空数据对齐实现跨机器人、跨操作者和跨数据集的三维空间标准化与时序归一化统一动作表示将本体感知和动作输出统一表达为BEV坐标系下的SE(3)位姿从实验结果来看Dexterity-BEV在仿真环境中展现了强大的跨本体泛化能力和对相机视角变化的鲁棒性在真实世界中四种不同硬件平台上的五项复杂长程任务均取得了领先的成功率并在分布外泛化、动态干扰恢复和语义交互等方面展示了令人印象深刻的闭环反应能力。展望未来研究团队指出了几个值得深入探索的方向。在算法层面将Dexterity-BEV扩展为生成式的三维世界-动作模型使其能够同时预测未来三维BEV状态点云和动作序列有望进一步提升策略的前瞻性和自校正能力。在数据基础设施层面结合快速发展的三维视觉基础模型实现大规模机器人操作数据集和第一人称人类演示视频的自动三维标注将显著降低高质量对齐数据的生成成本。在硬件层面解锁移动平台的完整轮足运动能力将框架从桌面操作扩展到房间尺度的移动操作同时引入力触觉和听觉反馈等多模态感知有望解决视觉遮挡下的精细操作难题建立真正鲁棒的多模态具身智能接口。具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html