Clear Sky Science · zh
GenHand:通用化的人类抓握运动学重映射
教机器人像我们一样拿东西
从拿起咖啡杯到拧螺丝,我们的人手让物体操控看起来轻而易举。机器人在可靠抓取日常物品方面却常常举步维艰,尤其当其夹持器与人手外形大相径庭时。本文介绍了 GenHand,一种从普通图像中的人手动作学习并将其转换为多种机器人手可以实现的稳定、类人抓取的系统。
为什么机器人手不能只照搬人类动作
许多现有的远程操作和模仿学习系统试图将人的手势直接复制到机器人手上,尽可能匹配指尖位置和关节角度。只有当机器人手与人手外形相近、指数和关节数量类似时,这种方法才有效。一旦机器人夹持器更为简单——例如只有两根平板状的“指”——被复制的姿态可能无法形成稳固抓取。这些方法也通常忽视物体的形状和应发生接触的区域,因此得到的抓取可能会滑动、失衡或无法正确接触表面。
同时观察手与物体的相互作用
GenHand 通过关注手与物体之间的交互来解决这一问题,而不仅仅关注手的形状。从一张普通 RGB 图像出发,系统重建物体的详细 3D 模型和人手的参数化 3D 模型。它使用神经网络推断手的姿态,并采用高级的“符号距离”(signed distance)表示来恢复物体表面。基于这一对模型,GenHand 确定人类指尖实际接触的位置以及它们对物体施加的力的方向。随后,它将这些接触点聚类为若干有意义的区域和力方向,这些聚类概括了人类抓取的核心结构,同时滤除了不必要的细节。

为每种机器人重新设计抓取
一旦 GenHand 理解了关键接触区域及其支撑物体的方式,它就为特定的机器人夹持器构建一组新的“接触锚点”。对于简单的两指夹持器,它可能只保留两处相对的接触区域,像一对大拇指夹住一个盒子。对于更灵活的三指、四指或五指手,它可以分配额外的锚点,以更好地匹配人类抓取的丰富接触模式。接着,一个数学优化步骤在物体表面上搜索能够在各方向上平衡力和力矩的接触位置,这一性质称为力闭合(force closure)。关键在于,GenHand 在保持接近原始人类接触的同时,要求所得到的握持在物理上对现实世界是稳定的。
从稳定接触到真实机器人动作
在确定了稳定的接触锚点后,第二个优化阶段寻找实际的关节角度和腕部运动,使机器人能在不违反关节限制或造成与物体碰撞的前提下实现这些锚点。为此,GenHand 反复将机器人潜在的接触点与期望锚点匹配、调整姿态并检查机器臂各部分是否穿入物体。这一过程应用于多种机器人手——从简单的 Robotiq 两指夹持器到高度关节化的五指 Shadow 手——并在物理仿真中进行测试。与仅模仿指尖几何的领先基线方法相比,GenHand 在力的不平衡方面明显更低、表面接触更准确,并且在不同摩擦条件下举起并保持 20 种日常物品时成功率显著更高。

这项技术对日常机器人的意义
对普通读者来说,结论是 GenHand 让机器人更清楚“如何”拿东西,而不仅仅是“把手放在哪里”。通过从真实的人类抓取中学习并强制执行基本的物理稳定性规则,它可以将相同的人类示范重映射到非常不同的机器人手上,同时仍能实现稳固可靠的抓取。这使得远程操作的机器人更易控制,帮助学习系统在更丰富的示例上训练,并使我们更接近能够安全操控与人类相同种类多样物品的家庭和工作场所机器人。
引用: Qi, L., Popoola, O., Imran, M.A. et al. GenHand: generalised human grasp kinematic retargeting. npj Robot 4, 19 (2026). https://doi.org/10.1038/s44182-026-00076-1
关键词: 机器人抓取, 远程操作, 人类示范, 机器人手, 操控