【强化学习抓取】偏机器人领域（略）

文章目录

1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch
- 摘要和结论
- 引言
- 相关工作
- 模型框架

1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch

摘要和结论

引言

尽管双指抓取已经在文献中得到了广泛的研究，但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会，例如物体重定向和使用工具（如锤子），但同时也带来了控制上的挑战，因为需要控制的自由度（DoFs）数量众多，使得寻找合适的操控策略变得困难。
深度强化学习（DRL）的最新进展提供了设计高维控制策略的工具，而无需对环境和手部进行特定建模。然而，现有的无模型算法（如SAC或PPO）在学习多指操控任务时效率不高，因为在这些情况下，由于问题的高维性，环境的有效探索在策略优化的初始阶段是不可行的。一些最近的方法提出了利用离线任务演示数据来解决这个问题，并将这些数据与在线策略训练期间获取的数据结合起来。尽管这些方法显示出了有希望的结果，但演示数据的收集是一个非平凡的过程，需要适当的工具，如动作捕捉（MoCap）或虚拟现实（VR）系统。
为了克服这些限制，作者们提出了一种基于DRL的抓取方法，该方法利用自动收集的演示来初始化策略训练。据作者所知，这是第一个从RGB数据、触觉和本体感知信息中学习这项任务的方法。他们从一个由外部算法生成的抓取姿势开始，将其作为任务的先验信息，并假设这个初始姿势是不准确的，需要根据特定的物体和抓取手进行细化。
因此，机器人首先将末端执行器移动到接近这个姿势的位置以开始抓取动作，然后使用一个单独的策略来接近和抓取物体。他们通过提出的G-PAYN方法训练这个策略。该方法首先利用给定的抓取规划器自动获取一组演示，然后从这些演示的数据开始训练策略。他们为训练过程设计了一个奖励函数，使用抓取成功或失败的度量，同时考虑抓取动作的中间步骤。例如，他们使用来自触觉传感器的信息，并为那些增加接触点数量以实现更稳定抓取的手部配置提供正向奖励。