Meta,CMU 和 ETU Zurich联合研究:仿真人形机器人的灵巧抓取与物体操作
作者介绍了一种控制模拟仿人抓取物体并按照物体轨迹移动的方法。由于控制具有灵巧双手的仿人机器人面临挑战,先前的方法通常使用非实体手,并且只考虑垂直升降或短轨迹。这种有限的范围阻碍了它们对动画和模拟所需的物体操纵的适用性。为了缩小这一差距,作者学习了一种控制器,它可以拾取大量(大于 1200 个)物体,并携带它们遵循随机生成的轨迹。作者的主要见解是利用仿人运动表示法来提供类似人类的运动技能,并大大加快训练速度。作者的方法仅使用了简单的奖励、状态和物体表示法,在不同的物体和轨迹上显示出良好的可扩展性。在训练时,作者不需要全身运动和物体轨迹的配对数据集。在测试时,作者只需要物体网格以及抓取和运输所需的轨迹。为了证明作者方法的能力,作者展示了在跟踪物体轨迹和泛化到未见物体方面最先进的成功率。作者将发布代码和模型。
1. 引言
在人工智能和机器人技术快速发展的今天,让仿人机器人能够灵活地抓取和操纵各种物体仍然是一个重大挑战。这项技术不仅对于动画和虚拟/增强现实中的人机交互至关重要,还有望在未来应用于真实世界的人形机器人领域。
如图 1 所示,给定一个物体网格,作者的目标是控制一个配备两只灵巧双手的仿真人形机器人拿起物体,并沿着合理的轨迹移动。这种能力可广泛应用于动画和 AV/VR 的人-物互动,并有可能扩展到仿人机器人领域。然而,实现用灵巧的双手控制模拟人形机器人进行精确的物体操作面临着诸多困难:
1.平衡控制:双足人形机器人需要在进行精细的手部动作时保持整体平衡。
2.灵活抓握:机器人需要能够适应不同形状的物体,形成稳定的抓握。
3.高自由度控制:人形机器人具有高度复杂的结构,增加了控制难度。
4.全身协调:手部动作需要与整个身体的运动协调一致。
5.轨迹跟随:机器人需要能够沿着各种复杂轨迹移动物体,而不仅仅是简单的垂直提升。
6.泛化能力:控制系统需要能够应对各种未见过的物体形状和移动轨迹。
以往的研究常常局限于使用独立的机械手或预设的单一互动序列,难以实现像人类一样灵活多变的物体操作。本研究提出了一种名为Omnigrasp的新方法,旨在通过强化学习技术,开发出一个能够全身协调、灵活操控的人形机器人控制器。这个控制器能够拾取各种物体并沿着多样化的轨迹移动,展现出前所未有的灵活性和通用性。
本研究在人形机器人灵巧抓取和物体操纵领域取得了三项重要贡献:
(1) 灵巧通用的人形机器人运动表征:作者设计了一种灵巧而通用的仿人运动表示法,它能显著提高采样效率,并能通过简单而有效的状态和奖励设计来学习抓取;
(2)基于合成数据的抓取策略学习:作者证明了利用这种运动表示法,人们可以通过合成抓取姿势和轨迹来学习抓取策略,而无需使用任何成对的全身和物体运动数据。
(3) 高性能人形机器人控制器:作者证明了训练仿人控制器的可行性,这种控制器在抓取物体、跟踪复杂轨迹、扩展到不同的训练物体以及泛化到未见物体方面都能达到很高的成功率。
2.Omnigrasp:抓取各种物体并跟踪物体轨迹
为了解决拾取物体并沿着不同轨迹移动这一具有挑战性的问题,作者首先在第 4.1 节中获得了通用的灵巧仿人运动表征。利用这一运动表示,作者设计了一个分层 RL 框架(第 4.2 节),在预草图的指导下使用简单的状态和奖励设计来抓取物体。作者的架构如图 2 所示。
2.1PULSE-X: 基于物理学的通用灵巧仿人运动表示法
PULSE-X 在团队之前的 PULSE【ICLR 2024 Spotlight✨】工作上增加了指关节,扩展到灵巧仿人机器人。然后,作者利用 variational information bottleneck(类似于 VAE )将运动模仿器提炼为运动表示。
数据增强:将AMASS数据集中的全身运动与 GRAB 和 Re:InterHand 数据集中的手部运动随机配对,创建包含手指运动的完整身体运动数据集
PHC-X: 带关节手指的人形机器人运动模仿:扩展PHC方法,将手指关节纳入考虑范围,使用强化学习训练模仿器
通过在线蒸馏学习运动表征:在 PULSE中,编码器, 解码器 和先验 通过学习将运动技能压缩为潜在表示。编码器计算基于当前输入状态的潜在代码分布,解码器基于潜在代码生成关节驱动动作,先验定义基于本体感受的高斯分布,取代 VAEs 中使用的单位高斯分布,用于指导下游任务学习。编码器和先验分布被建模为对角高斯分布:
为了训练模型,作者使用了类似于 DAgger 的在线提炼方法,即在模拟中推出编码器-解码器,并向查询以获取动作标签
2.2 预抓取引导的物体操作方法
使用分层强化学习和PULSE-X的训练解码器D_PULSE-X和先验P_PULSE-X,作者的物体操作策略的动作空间变为潜在运动表征。由于动作空间作为一个强大的类人运动先验,作者能够使用简单的状态和奖励设计,并且不需要任何配对的物体和人体运动来学习抓取策略。作者只使用抓取前的手部姿势(预抓取),无论是来自生成方法还是MoCap,来训练作者的策略。
State. 为了向任务策略π_Omnigrasp提供关于物体和期望物体轨迹的信息,作者将目标状态定义为
其中包含参考物体姿态和下一个φ帧的参考物体轨迹与当前当前物体状态之间的差异。所有值都相对于人形机器人朝向进行归一化。注意,状态不包含全身姿势、抓取指导或相位变量,这使得作者的方法可以直接应用于测试时的未见物体和参考轨迹。
Action. 类似于PULSE中的下游任务策略,作者将的动作空间形成为相对于先验均值的残差动作,并计算PD目标:
Reward.虽然作者的策略不将任何抓取指导或参考身体轨迹作为输入,但作者在奖励中利用预抓取指导。作者将预抓取定义为由手部平移 和组成的单帧手部姿势。使用分段奖励函数:接近奖励:当物体远离手部时;预抓取奖励:当手部接近预定义的抓取姿态时;轨迹跟随奖励:抓取后用于引导物体沿期望轨迹移动。
3D轨迹生成器。由于真实物体轨迹数量有限(无论是从MoCap还是动画师那里收集的),作者设计了一个3D物体轨迹生成器,可以创建具有不同速度和方向的轨迹,提高了对未见轨迹的泛化能力。作者将PACER中使用的2D轨迹生成器扩展到3D,并创建作者的轨迹生成器。给定初始物体姿态, 可以生成一系列合理的参考物体运动. 作者将 z 轴方向轨迹限制在0.03m和1.8m之间,并将 xy 方向保持不受限制。
训练阶段。作者的训练过程如算法1所示。运动模仿性能改进的主要来源之一是硬负例挖掘,其中定期评估策略以找到失败序列进行训练。因此,作者不使用物体课程学习,而是使用一个简单的硬负例挖掘过程来选择难度大的物体进行训练。具体来说,让物体 j 在所有先前运行中的失败次数 s{j} 提升。在所有物体中选择物体 j 的概率是。
**物体与人形机器人初始状态随机化。**鉴于物体相对于人形机器人可能具有多样化的初始位置和方向,使策略适应多样化的初始物体状态至关重要。给定物体数据集和提供的初始状态(来自动作捕捉或仿真中物体投放),作者通过添加随机采样的偏航方向旋转并调整位置分量来扰动。作者不改变物体初始姿态的俯仰和偏航角,因为某些姿态在仿真中可能无效。对于人形机器人,如果提供了配对数据(例如 GRAB 数据集),作者使用数据集中的初始状态;若无配对数据,则采用站立 T 形姿势。
推理阶段,仅需物体潜在编码、随机物体起始姿态和期望的物体轨迹 ,无需依赖预抓取或配对的人体运动学姿态。
3. 实验
本实验采用GRAB、OakInk和OMOMO等多样化数据集用于研究小型和大型物体抓取。实验在Isaac Gym仿真环境中进行,策略运行频率为30 Hz,采用6层MLP作为主要网络结构,并在抓取任务中引入了基于GRU的循环策略。训练过程在Nvidia A100 GPU上持续3天,收集了约个样本。评估指标包括位置误差、旋转误差、加速度误差、速度误差,以及创新性的抓取成功率和轨迹目标达成率。主要实验围绕抓取和轨迹跟随展开,在GRAB和OakInk数据集上进行了交叉验证,每次实验重复10次以确保结果的可靠性。研究的创新之处在于探索了全身仿真人形机器人的抓取任务,
作者利用多样化数据集进行训练和评估,并提出了新的综合评估指标。对于物体轨迹跟随任务,作者报告了位置误差(毫米),旋转误差 (弧度), 基于物理的指标有加速度误差 (毫米/帧²)和速度误差 (毫米/帧)。遵循全身仿真人形机器人抓取的先前研究,作者还记录了抓取成功率 和轨迹目标达成率 (TTR)。其中抓取成功率代表在物理仿真中物体被持续抓住至少0.5秒而不掉落。TTR测量轨迹中所有时间步骤中达到目标位置(距离目标位置<12厘米)的比率,仅在成功的轨迹上进行测量。为了测量完整的轨迹成功率,作者还报告,其中如果在任何时间点物体距离参考轨迹超过25厘米,则认为轨迹跟随失败。
3.1 抓取和轨迹跟踪
本实验在GRAB和OakInk数据集上进行,与Braun等人的方法、AMP和PHC进行了比较。所有实验均重复10次并取平均值,以消除模拟器因浮点误差等因素导致的轻微结果差异。实验主要评估了抓取成功率、轨迹跟随精度等指标,并进行了跨数据集的测试。
在GRAB数据集上,Omnigrasp在所有指标上都优于现有最佳方法和基线,特别是在成功率和轨迹跟随方面表现突出。与Braun等人的方法相比,Omnigrasp在物体提升和轨迹跟随上都达到了高成功率。直接使用运动模仿器(PHC)即使在提供真实运动学姿势的情况下也只能达到较低的成功率,表明模仿器的误差(平均30mm)对精确物体抓取来说太大。AMP导致较低的轨迹成功率,显示了在动作空间中使用运动先验的重要性。Omnigrasp能够精确跟踪MoCap轨迹,平均误差为28mm。
在OakInk数据集上,作者将抓取策略扩展到超过1000个物体,并测试了对未见物体的泛化能力。结果显示,在1330个物体中,有1272个能够被成功拾起,整个提升过程也有很高的成功率。测试集上观察到类似的结果。失败的物体通常要么太大要么太小,难以建立稳定的抓取。同时在GRAB和OakInk上训练的策略显示出最高的成功率,因为GRAB数据集中包含双手预抓取,策略学会了使用双手,这显著提高了某些较大物体的成功率。
3.2 消融实验与分析
消融实验表明,使用PULSE-X的动作空间显著提高了成功率并产生了类人的运动。预抓取引导对学习稳定抓取至关重要。灵巧的AMASS数据集对轨迹跟随很重要:没有它,策略可以学会拾起物体,但在轨迹跟随时会遇到困难。物体位置随机化和难例挖掘对学习稳健和成功的策略至关重要。
可视化结果显示,基于物体形状,作者的策略在轨迹跟随过程中使用了多样化的抓取策略来握持物体。基于轨迹和物体初始姿势,Omnigrasp为同一物体发现了不同的抓取姿势,展示了使用模拟和物理定律进行抓取生成的优势。对于较大的物体,作者的策略会采用双手和非夹持传输策略,这种行为是从GRAB中利用双手进行物体操作的预抓取中学习到的。
1.Omnigrasp在抓取和轨迹跟随任务上优于现有方法。
2.能够很好地泛化到大量物体(>1000个)。
3.通用运动先验(PULSE-X)显著提高了性能。
4.训练数据的多样性和预抓取引导对成功至关重要。
5.该策略能够根据物体和轨迹特征自适应地调整抓取策略。
4. 总结
Omnigrasp展示了控制模拟人形机器人抓取多样物体并沿全方位轨迹移动的可行性,但仍存在诸多限制。这些包括旋转误差需要进一步改进、尚不支持精确的手内操作、轨迹跟随成功率有待提高,以及实现特定抓取类型的需求。即使在模拟环境中,达到人类级别的灵巧性仍然具有挑战性。
Omnigrasp作为一个能够抓取超过1200个物体并跟随轨迹的人形机器人控制器,展示了使用预训练通用人形运动表示进行简单奖励和状态设计的学习方法。未来的工作方向包括提高轨迹跟随成功率、改善抓取多样性、支持更多物体类别,以及改进人形运动表示。此外,开发不依赖于规范物体姿态并能泛化到基于视觉系统的有效物体表示也是一个重要的研究方向。
来源: CAAI认知系统与信息处理专委会
仅用于学术分享,若侵权请留言,即时删侵!
本文来自新知号自媒体,不代表商业新知观点和立场。 若有侵权嫌疑,请联系商业新知平台管理员。 联系方式:system@shangyexinzhi.com