报道机器之心
作者:陈萍、杜伟
本文提出了模仿学习的用途 ROT 算法,不需要任何预训练 14 任务中的平均成功率为 90.1%。
模仿学习(Imitation Learning, IL)历史悠久,可分为行为克隆两种广泛范式(BC)和逆强化学习(IRL)。BC 利用监督学习获得策略,在演示中给出观察时,可以最大限度地发挥演示行动的可能性。虽然这使得训练不需要在线交互,但在线交互 rollout 分布不匹配。
IRL 通过在线环境 rollout 使用 RL 在优化策略之前,从演示轨迹中推断潜在的奖励函数。这使得该策略能够稳定地解决演示任务,即使缺乏任务的特定奖励。虽然它很强大,但 IRL 该方法有很大的缺陷,它们需要大量昂贵的在线环境交互。
在最近的一项工作中,纽约大学的研究人员提出了模仿学习 ROT(Regularized Optimal Transport)在概念上,算法是一种简单的新方法,ROT 与高维观测兼容,与标准兼容 IRL 该方法需要最少的额外超参数。
另外,为了解决 IRL 奖励不稳定的问题,ROT 采用 OT(Optimal Transport)使用非参数轨迹匹配函数进行奖励计算。该研究用于专家演示,以减少智能体探索的挑战 BC 预训练 IRL 行为策略。这减少了模仿智能体从零开始探索的需求。
论文地址:https://arxiv.org/pdf/2206.15469.pdf
论文主页:https://rot-robot.github.io/
然而,即使基于使用 OT 该研究只能通过奖励计算和预训练策略获得边际收入。基于以往工作的工作的灵感,通过规范化进行 IRL 稳定在线学习过程的策略,近预训练的策略 BC 策略。
为了实现这一点,研究人员开发了一种新的自适应权重计划,称为 soft Q-filtering,它可以自动设置正则化,即在训练开始时优先考虑 BC 策略,并优先考虑后续的探索。与以往的战略正则化方案相比,soft Q-filtering 衰减时间表不需要手动指定。
为了证明 ROT 研究人员在 DM Control、OpenAI Robotics 和 Meta-world 的 20 在模拟任务中进行了大量的实验 xArm 上进行了 14 机器人操作任务(见下图) 1)。
先来看看 ROT 机器人将盒子中的物体倒入另一个盒子,没有泄漏
机器人准确地将杯子扣在支架上。
机器人准确挂衣架。
方法概览
模仿学习面临的挑战之一是平衡模仿演示行为的能力,以及在演示状态分布之外的状态恢复能力。BC 通过监督学习模仿演示动作, IRL 专门研究如何从任意状态中恢复策略。ROT 可以将两者优势结合起来。
完成上述过程分为以下两个阶段:
第一阶段使用专家演示数据 BC 随机初始化目标训练策略 BC 第二阶段,BC 预训练策略可以访问和使用 IRL 目标训练环境。 IRL 训练,BC 在自适应权重目标中增加损失。阶段 1:BC 预训练
BC 对应于求解方程 2 最大的似乎是问题,其中 T^e 指的是专家演示。当参数方程由具有固定方差的正态分布时,我们可以将目标定义为回归问题,包括给定输入 s^e,π^BC 需要输出 a^e。
经过训练,π^BC 可以模拟演示中看到的对应动作。
阶段 2:使用 IRL 在线微调
给定预训练 π^BC 模型在环境中对策略 π^b ≡ π^ROT 在线微调。研究人员使用它 n-step DDPG 基于确定性的方法 actor-critic 在连续控制中提供高模型性能的方法。
用正则化 π^BC 微调容易受到分布偏移的影响,直接微调 π^BC 也会导致模型性能差(见第一次) 3 节中的图 2)。为了解决这个问题,研究人员基于指导 RL(guided RL) 和离线 RL 方法,通过将π^ROT 与 BC 将损失结合起来π^ROT 标准化的训练,如下方程 3 所示。
具有 Soft Q-filtering 自适应正则化。虽然以前的工作是手动调整的 λ(π) 但而,研究人员提出了一种不需要调整的新的自适应方案。他们是专家 replay 缓冲区 D_e 在较当前的策略 π^ROT 以及预训练策略 π^BC 完成性能。
实验结果
ROT 模仿学习的效率如何?ROT 在基于图像的模仿中的表现如下图 3 所示。在除一项任务以外的所有任务中,ROT 训练速度明显快于以前的工作。
为了达到 90% 专家性能,ROT 在 DeepMind Control 平均任务快 8.7 倍,在 OpenAI Robotics 任务上快 2.1 倍,并在 Meta-world 任务上快 8.9 倍。研究还发现,ROT 在更困难的任务中,改进是最明显的,位于图中 3 的最右边一列。
ROT 如何执行现实世界的任务?研究人员在 14 评估现实世界的操作任务。只有一个演示和一个小时的在线训练,ROT 在 14 任务中的平均成功率为 90.1%明显高于基于行为克隆 (36.1%) 和对抗性 IRL (14.6%) 的方法。
ROT 在不同的起始位置表现良好。
不过,ROT 也有失败。
在 ROT 中 IRL 选择方法有多重要?下图 6 将 ROT 在本研究中使用预训练和自适应 BC 正则化技术 (RDAC) 的对抗性 IRL 比较方法。结果发现,soft Q-filtering 方法确实改善了以前 SOTA 对抗 IRL(图 6 中的 RDAC 与 DAC)。然而,基于 OT 的方法 (ROT) 平均而言,它会促进更有效的学习。