机械手识别物体(哥伦比亚大学机械手)
机械手识别物体(哥伦比亚大学机械手)触觉反馈通常是高维的,这会极大地增加强化学习所需的训练样本数量。因此,大多数使用强化算法控制机械手的工作要么完全避免使用触觉反馈,要么考虑需要较少训练样本的任务。将触觉反馈与强化学习集成在一起,本身就是一个挑战。但大部分情况下,这种策略需要外部传感信息,例如,用多摄像头系统来跟踪手指或物体,然而这种系统很难部署在实验室以外的环境。为了解决该问题,哥伦比亚大学机器人操作和移动实验室的研究人员首次将无模型强化学习技术(RL)与本体触觉反馈相结合,在没有任何外部信息、机械手也不知道物体形状的情况下,仅利用“触觉感知”就能灵活操纵物体。▍无需提前了解抓握物体,也能灵活适应形状
人类天生拥有先进而灵活的手部操纵能力,能够轻松完成日常很多动作,例如移动物体、开门、打字、绘画等。
但对机器人来说,要实现多任务操控,并根据不同物体适应最合适的抓握手势,这可是件难事。
那该如何控制机械手实现日常操作呢?
很多灵活强大的机械手使用了无模型强化学习技术(RL)来进行精确抓握,这种方法通用性很强,它无需过多假设,而且能自动掌握很多技能。由于这种方法除了建立函数无需其他信息,所以很容易在改进后的环境中重新学习技能,例如更换了目标物体或机械手。
但大部分情况下,这种策略需要外部传感信息,例如,用多摄像头系统来跟踪手指或物体,然而这种系统很难部署在实验室以外的环境。
为了解决该问题,哥伦比亚大学机器人操作和移动实验室的研究人员首次将无模型强化学习技术(RL)与本体触觉反馈相结合,在没有任何外部信息、机械手也不知道物体形状的情况下,仅利用“触觉感知”就能灵活操纵物体。
▍无需提前了解抓握物体,也能灵活适应形状
将触觉反馈与强化学习集成在一起,本身就是一个挑战。
触觉反馈通常是高维的,这会极大地增加强化学习所需的训练样本数量。因此,大多数使用强化算法控制机械手的工作要么完全避免使用触觉反馈,要么考虑需要较少训练样本的任务。
为了避免大量的训练样本,研究人员考虑仅使用内部感知,不关注被抓物体的形状,而是专注于让机械手学习手指手势(包括手指替换和重新抓握的操作)和手指旋转(涉及手指抓握中的物体的操作)技能,这些不受手的运动学约束的限制,可以实现潜在的物体形状重新定向。
这个机械手并不包含手掌,所以可将手指的手势学习主要集中在主轴旋转,然后为每个轴获得的手指采集策略以适当的顺序组合,以实现目标方向的期望变化。
▍稳定抓取采样,减少随机性
仅用内部感知学习手势的方法有一定的缺点:行动随机化。
随机的探索动作容易扰乱精确抓握的物体的稳定性,导致其掉落,因此需要对手指位置稳定抓取采样(SGS),以训练稳定的抓握轨迹。
为了对手部姿势进行采样,研究人员首先对物体周围的环内指尖位置进行采样,该环以物体为中心并与其部分重叠,因此指尖接触物体和保持自由的概率大致相同。通过这个过程,不仅可以找到与手指步态和手指旋转相关的稳定抓握,还可以提高发现它们的可能性,从而最大限度地减少训练时间。
▍第一个将内在触感与强化学习结合的实例
这项研究的预印本发表在arXiv上,论文标题为《On the Feasibility of Learning Finger-gaiting In-hand Manipulation withIntrinsic Sensing》。
为了促进未来在真实场景中的部署,限制外部视觉或跟踪传感器等信息是很有必要的。这项研究是第一个成功地使用仅内在传感信息进行训练的机械手实例,论文的第一作者,Gagan Khandate认为:“这项工作是迈向未来机械手操纵方向的非常有用的一步,不仅如此,我们在不使用手掌或其他表面进行被动支持的情况下,也能实现机械手的稳定操作技能。”