世界world任务攻略世界world最新版-软件风向标

您的位置：首页 → 攻略 → 《世界world任务攻略世界world最新版

世界world任务攻略世界world最新版

2023-06-02 17:52:25 小编：我要评论

报道机器之心

作者：陈萍、杜伟

本文提出了模仿学习的用途 ROT 算法，不需要任何预训练 14 任务中的平均成功率为 90.1%。

模仿学习（Imitation Learning, IL）历史悠久，可分为行为克隆两种广泛范式（BC）和逆强化学习（IRL）。BC 利用监督学习获得策略，在演示中给出观察时，可以最大限度地发挥演示行动的可能性。虽然这使得训练不需要在线交互，但在线交互 rollout 分布不匹配。

IRL 通过在线环境 rollout 使用 RL 在优化策略之前，从演示轨迹中推断潜在的奖励函数。这使得该策略能够稳定地解决演示任务，即使缺乏任务的特定奖励。虽然它很强大，但 IRL 该方法有很大的缺陷，它们需要大量昂贵的在线环境交互。

在最近的一项工作中，纽约大学的研究人员提出了模仿学习 ROT（Regularized Optimal Transport）在概念上，算法是一种简单的新方法，ROT 与高维观测兼容，与标准兼容 IRL 该方法需要最少的额外超参数。

另外，为了解决 IRL 奖励不稳定的问题，ROT 采用 OT（Optimal Transport）使用非参数轨迹匹配函数进行奖励计算。该研究用于专家演示，以减少智能体探索的挑战 BC 预训练 IRL 行为策略。这减少了模仿智能体从零开始探索的需求。

论文地址：https://arxiv.org/pdf/2206.15469.pdf

论文主页：https://rot-robot.github.io/

然而，即使基于使用 OT 该研究只能通过奖励计算和预训练策略获得边际收入。基于以往工作的工作的灵感，通过规范化进行 IRL 稳定在线学习过程的策略，近预训练的策略 BC 策略。

为了实现这一点，研究人员开发了一种新的自适应权重计划，称为 soft Q-filtering，它可以自动设置正则化，即在训练开始时优先考虑 BC 策略，并优先考虑后续的探索。与以往的战略正则化方案相比，soft Q-filtering 衰减时间表不需要手动指定。

为了证明 ROT 研究人员在 DM Control、OpenAI Robotics 和 Meta-world 的 20 在模拟任务中进行了大量的实验 xArm 上进行了 14 机器人操作任务(见下图) 1）。

先来看看 ROT 机器人将盒子中的物体倒入另一个盒子，没有泄漏

机器人准确地将杯子扣在支架上。

机器人准确挂衣架。

方法概览

模仿学习面临的挑战之一是平衡模仿演示行为的能力，以及在演示状态分布之外的状态恢复能力。BC 通过监督学习模仿演示动作， IRL 专门研究如何从任意状态中恢复策略。ROT 可以将两者优势结合起来。

完成上述过程分为以下两个阶段：

第一阶段使用专家演示数据 BC 随机初始化目标训练策略 BC 第二阶段，BC 预训练策略可以访问和使用 IRL 目标训练环境。 IRL 训练，BC 在自适应权重目标中增加损失。

阶段 1：BC 预训练

BC 对应于求解方程 2 最大的似乎是问题，其中 T^e 指的是专家演示。当参数方程由具有固定方差的正态分布时，我们可以将目标定义为回归问题，包括给定输入 s^e，π^BC 需要输出 a^e。

经过训练，π^BC 可以模拟演示中看到的对应动作。

阶段 2：使用 IRL 在线微调

给定预训练 π^BC 模型在环境中对策略 π^b ≡ π^ROT 在线微调。研究人员使用它 n-step DDPG 基于确定性的方法 actor-critic 在连续控制中提供高模型性能的方法。

用正则化 π^BC 微调容易受到分布偏移的影响，直接微调 π^BC 也会导致模型性能差(见第一次) 3 节中的图 2)。为了解决这个问题，研究人员基于指导 RL（guided RL）和离线 RL 方法，通过将π^ROT 与 BC 将损失结合起来π^ROT 标准化的训练，如下方程 3 所示。

具有 Soft Q-filtering 自适应正则化。虽然以前的工作是手动调整的 λ(π) 但而，研究人员提出了一种不需要调整的新的自适应方案。他们是专家 replay 缓冲区 D_e 在较当前的策略 π^ROT 以及预训练策略 π^BC 完成性能。

实验结果

ROT 模仿学习的效率如何？ROT 在基于图像的模仿中的表现如下图 3 所示。在除一项任务以外的所有任务中，ROT 训练速度明显快于以前的工作。

为了达到 90% 专家性能，ROT 在 DeepMind Control 平均任务快 8.7 倍，在 OpenAI Robotics 任务上快 2.1 倍，并在 Meta-world 任务上快 8.9 倍。研究还发现，ROT 在更困难的任务中，改进是最明显的，位于图中 3 的最右边一列。

ROT 如何执行现实世界的任务？研究人员在 14 评估现实世界的操作任务。只有一个演示和一个小时的在线训练，ROT 在 14 任务中的平均成功率为 90.1%明显高于基于行为克隆 (36.1%) 和对抗性 IRL (14.6%) 的方法。

ROT 在不同的起始位置表现良好。

不过，ROT 也有失败。

在 ROT 中 IRL 选择方法有多重要？下图 6 将 ROT 在本研究中使用预训练和自适应 BC 正则化技术 (RDAC) 的对抗性 IRL 比较方法。结果发现，soft Q-filtering 方法确实改善了以前 SOTA 对抗 IRL（图 6 中的 RDAC 与 DAC）。然而，基于 OT 的方法 (ROT) 平均而言，它会促进更有效的学习。

猜你喜欢

世界更多>>最新版更多>>任务攻略更多>>world更多>>

世界[共22839款]

任务攻略[共5419款]

world[共88款]

发表评论

资讯排行	资讯中心	热门专区	软件评测
软件排行榜	软件攻略	软件下载	软件开测表
软件排行榜	软件礼包	软件下载	新软件测表
安卓排行榜	软件视频	软件下载
苹果排行榜