HumanEgo——从半小时人类第一视角视频中进行零样本学习的4大关键点:对人类手臂进行图像修补、将每只手和每个物体编码为一个交互中心 Token、流匹配策略、稠密辅助目标
前言我个人之所以关注到本文要介绍的HumanEgo纯粹就是因为其数采设备就一副眼镜手上啥东西都没有..如原论文所说人类第一视角视频无需任何机器人硬件即可捕获大量丰富的操控示范但由于人在视觉外观与运动学(运动结构)上都与机器人存在“具身鸿沟”将这些技能迁移到机器人上仍然具有挑战性故来自马里兰大学的研究者提出 HumanEgo 框架『HumanEgo 从人类第一视角视频中学习机器人策略。人类佩戴Aria眼镜并采集示范数据左将第一视角视频转换为以交互为中心的表示并用其训练流匹配策略中该策略零样本迁移到机器人上——无需额外的环境设定、实验装置或具身形式右』通过将每一段人类示范提升为手–物交互的实体级表示并训练一个带有稠密辅助目标的 flow matching 策略从而弥合这种具身差异并从每条轨迹中放大监督信号HumanEgo 完全不依赖机器人数据、与硬件无关、数据高效并支持零样本的人到机器人的技能迁移在每个任务仅提供 30 分钟人类视频的条件下HumanEgo 在四个真实世界任务上取得了 92.5% 的平均成功率仅用 15 分钟视频也能达到 75%相较于同等时间的机器人远程操控提升了 41%并能在新机器人、新相机和新环境上实现稳健的零样本迁移第一部分 HumanEgo: Zero-Shot Robot Learningfrom Minutes of Human Egocentric Videos1.1 引言与相关工作1.1.1 引言当前最先进的操作策略通常需要数百到数千条针对特定任务的机器人演示数据[1,2,3,4,5,6]而这类数据的采集成本高、耗时长且不便执行相比之下人类第一视角视频提供了一种更加廉价且易于获取的替代方案借助头戴式摄像机 [7]单个个体即可在任意环境中于数分钟内收集到任务演示数据那么应当如何利用这类数据现有方法大致可分为两大范式但二者都存在显著局限性共训练Co-training方法 [8,9,10,11] 使用人类视频来补充机器人数据但依然需要为每一个新任务收集大量的机器人演示——这只是减轻而非消除数据负担大规模预训练Large-scale pretraining方法 [12,13,14,15] 则基于海量第一视角语料进行学习但其对算力需求极高并且在得到可部署的策略之前仍然需要额外的、面向机器人的后训练过程本文追求一个更直接的目标仅利用数分钟的人类第一视角演示就学习出可部署的操作策略——无需任何机器人数据也不依赖互联网规模的预训练然要实现这一目标会暴露出两个根本性挑战表征挑战弥合具身差距人类和机器人在视觉外观和运动学两方面都存在差异并且这些鸿沟各自需要不同的解决方案在视觉层面基于重定向的方法 [16,17,18] 能从人类视频中合成类似机器人的图像但对形态结构和视角差异非常脆弱基于点跟踪的方法 [19,20,21] 提取稀疏的几何特征却丢弃了交互周围丰富的视觉上下文在运动学层面分层方法 [22,23,24] 将高层计划与低层执行分离但在低层控制器部分仍然需要机器人数据以物体为中心的方法 [25,26,27] 只跟踪被操纵的物体从而丢失了关于手是如何接近、抓取以及释放该物体的关键信息作者认为仅有手或仅有物体都无法定义一项技能——关键在于它们之间的交互。这正是HumanEgo 背后的核心表征主张机器人不应模仿人类身体本身而应恢复能够在不同躯体之间迁移的、与任务相关的交互几何信息学习挑战从极少数据中学习。尽管互联网上存在大量原始的人类视频但带有精确动作标签的干净片段仍然稀缺因此如何在每个任务仅有几分钟视频的条件下实现高效的数据利用学习就变得至关重要在这种学习范式下主要出现两类挑战多模态性和信号稀疏性关于多模态性挑战同一任务往往存在多种同样有效的完成策略。基于扩散的模型方法[3] 能够刻画这种分布但需要进行大量去噪步骤使得推理速度较慢而更快速的替代方案 [28] 表达能力则相对不足关于信号稀疏性挑战每条轨迹中除了手部动作之外还蕴含了丰富的信号——例如物体运动、视觉轨迹、手–物体状态等——然而现有工作仅利用了其中很小一部分如视觉前瞻 [25,29,30] 或 2D 轨迹 [19,27,31] 这类单一的辅助目标或是上游预训练语料库 [12,13,32]作者主张将快速的生成式策略与多类型、稠密监督相结合是在仅有几分钟的人类第一视角视频下仍能实现高效数据利用学习的关键换言之目标是在同样的人类视频中尽可能“挤出”多种形式的监督信号使得规模较小、精心筛选的示范数据也能发挥远超其体量的效果对此作者提出了HumanEgo从针对性的设计入手逐一弥合上述各类差距『手臂修复和视觉关键点用于弥合视觉差异以交互为中心的 token 编码所有实体之间的空间关系带有稠密辅助目标的流匹配策略从分钟级人类数据中学习双臂机器人动作』针对视觉差距作者对每一帧第一视角图像中的人类手臂进行图像修补in-paint并在其位置渲染带有已跟踪物体关键点的虚拟夹爪从而获得与具体具身形态无关的视觉观测针对运动学差距作者将每只手和每个物体编码为一个交互中心 TokenInteraction-Centric Token, ICT从而得到一种紧凑的、对具身形态和视角都不敏感的手–物体交互空间观测针对多模态性作者采用 flow matching [33] 策略学习策略网络在推理速度较快的前提下生成具有高度表达力的多模态动作针对信号稀疏作者设计了三个稠密的辅助目标2D 轨迹、物体运动以及潜空间一致性这三者结合起来从每条轨迹的场景动态中挖掘出多类型的稠密监督从而在示例数量有限的情况下显著提升学习效果1.1.2 相关工作近年来研究社区构建了大量大规模的第一视角egocentric以及手–物体交互数据集[34,35,15,36,37,38,39,14]为从人类视频中学习操纵技能提供了数据基础在此基础上一类工作致力于扩展通用策略与世界模型 [12,13,40,41,42] 的规模这些模型从海量语料中学习与具体具身形态无关的表征但在部署时往往需要巨大的计算资源以及针对每个任务的机器人后训练另一类工作则在配对的人类与机器人数据上进行联合训练 [8,9,26,43,10,44,11]在不同具身形态之间进行联合优化以摊销人类示范信号的成本然而每个新任务仍然需要自己的一批机器人演示为了完全避免使用机器人数据视觉重定向方法[16,23,17,18] 则通过对人类手臂进行修补inpainting并在其位置渲染机器人合成伪机器人演示但这种渲染图像在面对形态和视角的多样性时非常脆弱(brittle)(运动学)分层方法 [22,24,45] 从人类视频中学习高层计划并将低层控制委托给在机器人上训练的控制器但这仍然在低层技能上依赖机器人数据为了完全避免使用机器人数据第三类方法尝试学习与具身形式无关的表示以实现零样本迁移但它们在“表示什么”这一点上存在差异基于点的方法 [21,20,46,47] 将场景编码为二维或三维点从而获得计算效率但丢失了手与物体之间的结构关系以物体为中心的方法 [48,49,31,29,50] 通过物体的 6 自由度姿态或运动来表示场景能够捕获物体动力学却仅以隐式方式建模操作器而基于目标条件的方法 [19,51] 在给定目标图像的条件下预测二维轨迹或三维手腕轨迹但在部署时需要显式的目标指定若干其他方向 [52,25,53,30,54,55,56,57] 也从互补的维度探索从视频中学习操作技能。这些零样本方法中有一条共同主线它们要么表示手要么表示物体但很少表示二者的交互——而交互恰恰是定义操作行为的核心信号HumanEgo 通过一种以交互为中心的表示弥合了这一鸿沟该表示显式编码手与物体之间的空间关系使得在没有任何机器人数据或大规模预训练的前提下仅凭几分钟的人类第一视角视频就能实现零样本迁移1.2 HumanEgo1.2.1 自我中心视角数据采集一名佩戴 Aria Gen1 眼镜 [7] 的人类演示者在任意便利的环境中执行目标任务——不受桌面高度、光照或背景的限制也无需专门的工作空间或标定见图 11附录 A每次演示只需几秒作者以 30 Hz 的频率为每个任务采集约 30 分钟的人类演示数据Aria 眼镜尤其适合用于从人类视频中学习其 Machine PerceptionServicesMPS提供高质量的 6-DoF SLAM 追踪、标定好的三维手部姿态估计以及同步的自我中心 RGB 图像流——这一切都来自单一的轻量级可穿戴设备1.2.2 视觉观测预处理作者分两步将未畸变的第一人称视角帧转换为与具体具身形式无关的 RGB 观测首先使用 SAM2 对人的手部和手臂进行分割并通过 LaMa 修复 [58] 将其移除从而消除视觉具身差异其次在修复后的图像中渲染一个虚拟夹爪以及被跟踪物体的关键点『二者均来源于空间观测(第 3.3 节)』以视觉线索的形式隐式编码 6D 位姿信息该轻量级处理过程无需昂贵的领域自适应或图像翻译即可弥合视觉具身差异1.2.3 空间观测预处理作者构建显式的实体级空间观测将每个物体以及双手都视为实体对手部和物体进行跟踪以恢复每个实体的 6 自由度位姿(6-DoF pose)然后将它们之间的相对关系编码为以交互为中心的TokenInteraction-Centric Tokens下面将这三个步骤分别展开说明第一手部追踪和运动优化作者从Aria MPS [7] 生成的3D 手部关键点开始通过SLAM 将其提升到世界坐标系并使用Savitzky-Golay 对位置进行平滑对旋转使用指数移动平均EMA进行平滑然后将拇指-食指对视为一个虚拟的平行夹爪夹持器(图12)提取一个SE (3) 末端执行器位姿Tee 和一个标量抓取值g在位置方面取指尖中点在方向方面在掌指关节(MCP)而不是指尖上构建Gram-Schmidt 标架其中MCP mid 是两个MCP 的中点这避免了在捏合抓取时指尖汇聚导致的退化对于抓取通过对拇指-食指指尖距离进行归一化(细节见附录B.3)来计算一个标量并在部署时进行二值化第二物体跟踪和位姿估计作者使用文本提示的Grounding DINO [59] 检测每个物体使用SAM2 [60] 对其进行分割并从掩膜中采样轮廓关键点作者使用CoTracker3 [61] 在视频中跟踪这些2D 关键点un并通过将其提升到3D使用相机内参和逐帧的Aria SLAM 位姿取N 个被跟踪点的质心作为物体位置以抵消逐点三角化噪声并使用Orient-Anything V2 [62] 估计朝向在抓取过程中物体会被手遮挡因此作者应用运动学锁定从抓取开始时刻起将物体位姿刚性地绑定到手第三通过基于交互的token(ICT)进行实体空间编码作者将每个实体的6 自由度位姿编码为一个ICT同时捕获其在共享参考系中的位姿以及其与双手之间的空间关系对于每个实体token定义为其中为实体类型手或物体是实体在共享参考系REF(静止相机坐标系)中的位姿和分别是用实体的局部坐标系表示的左手(LH)和右手(RH)位姿是抓取状态(对于手是二值化的手指距离对于物体是一个哨兵值)作者将每个SE(3) 变换展平成一个9D 向量即将归一化的平移与6D 旋转表示[63] 拼接起来并在没有真实标注的情况下完全依赖现成的感知模块来获得所有量。不同于以往使用全局点云或绝对坐标的方法[21,20]作者将每个ICT 锚定到一个实体上从而不断变化的和可以直接反映操作状态(接近、抓取或移动)使得该表征在本质上以交互为中心总之将所有量相对于场景实体而非相机来表达可以在不同视角下得到相同的tokens从而实现直接的人机迁移且作者还获得了一个统一的、可变长度的接口在不改变网络结构的前提下适应具有不同物体数量的场景。作者宣称他们在实证上表明ICT 是实现跨形体迁移的关键推动因素1.2.4 带有稠密辅助目标的流匹配策略策略图2接收场景状态-ICT 标记和一张RGB 图像并生成一个在K 步时间范围上的双臂动作轨迹其中每个维切片串联了双手的6-DoF 位姿和二值抓取接下来在下文中描述训练过程首先对于流匹配动作生成作者将动作生成表述为一个条件流匹配[33,64] 问题用以为条件的transformer 解码器对速度场进行参数化并训练其将高斯先验样本传输到动作目标主要训练损失为其中,,分别是位置(p)、旋转(r)和抓取(g)的损失权重是速度预测误差是流动时间下的插值样本是高斯先验样本是真实的双手动作在推理阶段使用固定步长的Euler 求解器对学习到的ODE 进行积分其次对于密集辅助目标// 待更