软件风向标,重度软件行业发展门户!

文章更新 | 热门文章
您的位置: 首页  →  攻略 → 《世界world任务攻略 世界world最新版

世界world任务攻略 世界world最新版

2023-06-02 17:52:25      小编:      我要评论

报道机器之心

作者:陈萍、杜伟

本文提出了模仿学习的用途 ROT 算法,不需要任何预训练 14 任务中的平均成功率为 90.1%。

模仿学习(Imitation Learning, IL)历史悠久,可分为行为克隆两种广泛范式(BC)和逆强化学习(IRL)。BC 利用监督学习获得策略,在演示中给出观察时,可以最大限度地发挥演示行动的可能性。虽然这使得训练不需要在线交互,但在线交互 rollout 分布不匹配。

IRL 通过在线环境 rollout 使用 RL 在优化策略之前,从演示轨迹中推断潜在的奖励函数。这使得该策略能够稳定地解决演示任务,即使缺乏任务的特定奖励。虽然它很强大,但 IRL 该方法有很大的缺陷,它们需要大量昂贵的在线环境交互。

在最近的一项工作中,纽约大学的研究人员提出了模仿学习 ROT(Regularized Optimal Transport)在概念上,算法是一种简单的新方法,ROT 与高维观测兼容,与标准兼容 IRL 该方法需要最少的额外超参数。

另外,为了解决 IRL 奖励不稳定的问题,ROT 采用 OT(Optimal Transport)使用非参数轨迹匹配函数进行奖励计算。该研究用于专家演示,以减少智能体探索的挑战 BC 预训练 IRL 行为策略。这减少了模仿智能体从零开始探索的需求。

论文地址:https://arxiv.org/pdf/2206.15469.pdf

论文主页:https://rot-robot.github.io/

然而,即使基于使用 OT 该研究只能通过奖励计算和预训练策略获得边际收入。基于以往工作的工作的灵感,通过规范化进行 IRL 稳定在线学习过程的策略,近预训练的策略 BC 策略。

为了实现这一点,研究人员开发了一种新的自适应权重计划,称为 soft Q-filtering,它可以自动设置正则化,即在训练开始时优先考虑 BC 策略,并优先考虑后续的探索。与以往的战略正则化方案相比,soft Q-filtering 衰减时间表不需要手动指定。

为了证明 ROT 研究人员在 DM Control、OpenAI Robotics 和 Meta-world 的 20 在模拟任务中进行了大量的实验 xArm 上进行了 14 机器人操作任务(见下图) 1)。

先来看看 ROT 机器人将盒子中的物体倒入另一个盒子,没有泄漏

机器人准确地将杯子扣在支架上。

机器人准确挂衣架。

方法概览

模仿学习面临的挑战之一是平衡模仿演示行为的能力,以及在演示状态分布之外的状态恢复能力。BC 通过监督学习模仿演示动作, IRL 专门研究如何从任意状态中恢复策略。ROT 可以将两者优势结合起来。

完成上述过程分为以下两个阶段:

第一阶段使用专家演示数据 BC 随机初始化目标训练策略 BC 第二阶段,BC 预训练策略可以访问和使用 IRL 目标训练环境。 IRL 训练,BC 在自适应权重目标中增加损失。

阶段 1:BC 预训练

BC 对应于求解方程 2 最大的似乎是问题,其中 T^e 指的是专家演示。当参数方程由具有固定方差的正态分布时,我们可以将目标定义为回归问题,包括给定输入 s^e,π^BC 需要输出 a^e。

经过训练,π^BC 可以模拟演示中看到的对应动作。

阶段 2:使用 IRL 在线微调

给定预训练 π^BC 模型在环境中对策略 π^b ≡ π^ROT 在线微调。研究人员使用它 n-step DDPG 基于确定性的方法 actor-critic 在连续控制中提供高模型性能的方法。

用正则化 π^BC 微调容易受到分布偏移的影响,直接微调 π^BC 也会导致模型性能差(见第一次) 3 节中的图 2)。为了解决这个问题,研究人员基于指导 RL(guided RL) 和离线 RL 方法,通过将π^ROT 与 BC 将损失结合起来π^ROT 标准化的训练,如下方程 3 所示。

具有 Soft Q-filtering 自适应正则化。虽然以前的工作是手动调整的 λ(π) 但而,研究人员提出了一种不需要调整的新的自适应方案。他们是专家 replay 缓冲区 D_e 在较当前的策略 π^ROT 以及预训练策略 π^BC 完成性能。

实验结果

ROT 模仿学习的效率如何?ROT 在基于图像的模仿中的表现如下图 3 所示。在除一项任务以外的所有任务中,ROT 训练速度明显快于以前的工作。

为了达到 90% 专家性能,ROT 在 DeepMind Control 平均任务快 8.7 倍,在 OpenAI Robotics 任务上快 2.1 倍,并在 Meta-world 任务上快 8.9 倍。研究还发现,ROT 在更困难的任务中,改进是最明显的,位于图中 3 的最右边一列。

ROT 如何执行现实世界的任务?研究人员在 14 评估现实世界的操作任务。只有一个演示和一个小时的在线训练,ROT 在 14 任务中的平均成功率为 90.1%明显高于基于行为克隆 (36.1%) 和对抗性 IRL (14.6%) 的方法。

ROT 在不同的起始位置表现良好。

不过,ROT 也有失败。

在 ROT 中 IRL 选择方法有多重要?下图 6 将 ROT 在本研究中使用预训练和自适应 BC 正则化技术 (RDAC) 的对抗性 IRL 比较方法。结果发现,soft Q-filtering 方法确实改善了以前 SOTA 对抗 IRL(图 6 中的 RDAC 与 DAC)。然而,基于 OT 的方法 (ROT) 平均而言,它会促进更有效的学习。

世界[共22839款]

最新版[共192款]

任务攻略[共5419款]

world[共88款]

  • 发表评论
资讯排行 资讯中心 热门专区 软件评测
软件排行榜 软件攻略 软件下载 软件开测表
软件排行榜 软件礼包 软件下载 新软件测表
安卓排行榜 软件视频 软件下载
苹果排行榜