软件风向标,重度软件行业发展门户!

文章更新 | 热门文章
您的位置: 首页  →  攻略 → 《模型移动9关攻略

模型移动9关攻略

2023-06-04 21:39:12      小编:      我要评论

报道机器之心

编辑:陈萍,小舟

在我的世界里,玩家不一定是人类。 AI 也会玩了。

《我的世界》是世界上最著名的开放世界游戏。孩子们只需要看十分钟的教学视频就可以学会在游戏中寻找稀有的钻石,但这是 AI 此前无法企及的高度。

今天 OpenAI 研究团队宣布,他们开发了一种可以玩我的世界的智能身体,使用大量的视频数据训练神经网络,只使用少量的标记数据。

微调之后,OpenAI 训练模型还可以学习制作挖矿工具,熟练的人类玩家在 20 这个任务可以在2.4万 次操作)。OpenAI 该模型使用按钮和鼠标移动来控制人机界面,这使得该模型非常通用,这向通用计算机使用智能体迈出了一步。

论文地址:https://cdn.openai.com/vpt/Paper.pdf

让我们先来看看效果。模型建造了一个简单的木制避难所:

制作石镐


在村里搜索


VPT 方法

互联网包含了大量的公共视频供我们学习,比如游戏玩家演示游戏玩法,我的世界玩家建造了一个复杂的房子。然而,这些视频只提供记录,而不是确切的实现,即鼠标移动和按钮的确切顺序。

相比于 OpenAI 大型语言模型应在视频游戏等更通用的领域构建大型基本模型(foundation model),缺乏动作标签带来了新的挑战。

本研究提出了一种新颖但简单的半监督模仿学习方法:视频预训练(VPT)。

该研究首先从游戏商家那里收集了一个小数据集,它不仅记录了玩游戏的视频,还记录了玩家采取的行动,即按钮和鼠标的移动。该研究利用这些数据训练了逆动力学模型 (IDM),预测视频中每一步所采取的动作。重要的是,IDM 每一步都可以用过去和未来的信息来猜测。这种任务比只给定过去视频帧预测动作的行为克隆任务容易得多,需要的数据也少得多。然后研究使用训练有素的研究 IDM 标记更大的在线视频数据集,并通过行为克隆学习行动。

下图为 VPT 方法概览:

VPT 零样本结果

这项研究在游戏《我的世界》中验证了所提到的方法,因为它 (1) 它是世界上最受欢迎的视频游戏之一,拥有大量的免费视频数据, (2) 它是开放的,可以提供类似于现实世界(如计算机使用)的各种行为和动作。与以前在《我的世界》中使用简化动作空间的工作不同,OpenAI 新模型使用更普遍、更困难的原生人机界面:鼠标和键盘 20Hz 帧率。

克隆模型(VPT 使用基本模型) 70000 小时的 IDM 在《我的世界》中标记在线视频进行训练 》几乎不可能完成强化学习的任务。新模型学会了砍树收集原木,把原木做成木板,然后把木板做成盒子;这个行为序列是关于我的世界的高级玩家 50 秒内执行 1000 连续游戏动作。

制作盒子过程中每一步所需的动作数量和时间。

制作箱子零样本模型的过程。

此外,该模型还可以执行游戏中人类经常执行的其他复杂技能,如游泳、狩猎动物、食物和一些特殊技能。

游泳。

狩猎。

食用食物。


微调采用行为克隆

基本模型旨在具有广泛的行为特征,并完成各种任务。为了整合新知识或专注于更具体的任务,通常是基于更小、更具体的数据集来微调模型。

那么,VPT 如何将基本模型微调到下游数据集?OpenAI 让人类玩家在最新版本的《我的世界》中玩 10 用基本材料建造房屋需要几分钟。OpenAI 我希望这能提高基本模型执行早期游戏技能的能力。结果表明,基本模型在可靠执行早期游戏技能方面取得了巨大进展,微调模型也掌握了作石器等新技能。

制作石镐所需的物品顺序

数据扩展

也许本研究中最重要的假设是使用标记 contractor 数据训练 IDM(作为 VPT pipeline 部分)直接从同一个小型比 contractor 数据集训练 BC 基本模型要有效得多。为了验证这一假设,研究人员不断增加数据量来训练基本模型,数据量从 1 小时增加到 70000 小时。他们将训练分为两部分,如下图所示,训练数据的持续时间为 2000 为分界线。

基本模型培训数据对微调的影响:从图中可以看出,随着基本模型数据的增加,模型生产能力增加。只有在最大数据规模下,我们才能看到石器工具的生产。

通过强化学习进行微调

当指定的奖励函数足够好时,强化学习可以成为激发更高甚至超人表现的有力方法。VPT 模型和 RL 更好的搭配,因为模仿人类行为可能比随机行动更有帮助。这项研究设置了一些模型挑战任务,即收集钻石鹤嘴锄,这在我的世界中是前所未有的。

制作钻石鹤嘴锄需要一长串复杂的子任务。该研究将奖励序列中的每一个智能主体,以使这项任务易于处理。

RL 微调 VPT 模型制作钻石鹤嘴锄

研究发现,从随机初始化(标准) RL 方法)训练 RL 策略几乎没有奖励。与之形成鲜明对比的是,VPT 模型的微调不仅可以(它在) 10 《我的世界》有几分钟 2.5% 这样做),它甚至达到了人类收集所有物品以获得钻石镐的成功率的水平。这是人类第一次展示计算机智能体可以在我的世界里制造钻石工具,人类平均需要 20 多分钟(24000 次操作)。

VPT 通过观看互联网上的大量视频,智能体可以学习铺平道路。与只会产生表征先验的生成视频建模或对比方法相比,VPT 它提供了直接学习大规模行为先验的可能性,而不仅仅是语言。尽管这项研究只存在 实验是在我的世界里进行的,但是游戏是开放的,原生人机界面(鼠标和键盘)非常普遍,所以这项研究也会给其他领域带来好处,比如电脑使用。

此外,该研究还开源了数据、我的世界所需的环境、模型代码和模型权重。他们希望这些开源将有助于未来 VPT 的研究。

原文链接:

https://openai.com/blog/vpt/

模型[共408款]

攻略[共168097款]

  • 发表评论
资讯排行 资讯中心 热门专区 软件评测
软件排行榜 软件攻略 软件下载 软件开测表
软件排行榜 软件礼包 软件下载 新软件测表
安卓排行榜 软件视频 软件下载
苹果排行榜