我训练了谁,谁又训练了我?
今年6月底,知名科技公司OpenAI发表了一篇论文,主要围绕一篇名为 视频预训练(VPT:Video PreTraining)的AI技术展开讨论。
这项研究的看了7万多个小时的《我的世界》视频后,这项研究的结果相当令人满意。AI游泳、狩猎、建房、下矿的大部分必要技能:游泳、狩猎、建房、下矿,甚至搜索村庄。
虽然人类仍然有一些难以理解的操作,但结果,它已经比许多类似的操作更好了AI表现要好得多。
AI找到东西后,我兴奋地卷起天花板
当然,作为普通玩家,我们可能更关心这样一个高智能、有趣的技术词汇,而不是背后堆积如山的代码和逆动动力模型。AI什么时候才能装进游戏?
给我整个
1
无须等待,AI现在是走进千万家的场景。
虽然OpenAI目前只提交给专门研究《我的世界》的模型AI的MineRL比赛,但在他们发表论文的前后几天,另一个功能相似AI它也出现在互联网上。更重要的是,研究团队直接将他们的代码放在网上。Github供所有人下载研究。
MineDojo的Github页面
这个名叫MineDojo该项目由英伟达的工程师开发,也通过观看在线视频数据进行培训,但与OpenAI不同的是,他们的数据库要大得多。
MineDojo在油管上收集了73万个游戏视频,7000多个维基网页,甚至数百万个与我的世界有关的网页Reddit评论。
互联网规模
这么做的目的,当然在于帮助AI了解人类语境中建设、生存等词汇的意义,油管主在教学视频中教观众从哪里开始,在哪里寻找寺庙,然后如何攻略末影龙——
对于AI这就是好的网课。
支持这种行为的是一种被称为MineCLIP学习算法。它可以帮助它AI将主播的解释与视频中显示的操作联系起来,达到训练的目的;同样,训练良好AI也能理解玩家直接发布的任务。
这是MineDojo最有趣的部分,工程师们准备了3000个可以直接下达给AI指令,一种是程序任务,如生存3天或收集两块木头,可以客观地用数字和术语来衡量;另一种是抽象任务,如建造美丽的海滨别墅。
AI可能很难理解美、海滨、别墅是什么意思,但大多数时候,通过对视频图片的解释,然后搜索玩家评论的关键词AI能够有模有样地实现目标。
玩家可以给这些任务AI命令把牛羊圈起来、在沼泽里找鸡、活得尽可能久,或者让它搜索海底寺庙。因为互联网上常用的语言,AI学习一些人类独特的幽默感是相当到位的。
下达玩指令
和OpenAI与模型相比,MineDojo技术难度可能没那么高。毕竟它直接进入游戏端口,直接控制游戏中的数据AI行动要简单得多;和OpenAI从零开始建立模仿人类的行动模型,指令直接模拟人类键鼠操作。
并且MineDojo在某些时候,我们仍然需要修改游戏数据来实现目标。例如,在攻略末影龙时,只有作弊才能让末影龙站在原地挨打。
残忍的手足视频
不过,MineDojo依然呈现AI能够通过现有的视频和材料学习的能力。唯一遗憾的是,我还没看到多少MineDojo实装后的反馈,所以实际效果也有一些疑问。优点是它可以免费下载给所有人,作为AI试试入门免费资料。
2
由于当代互联网的发展,AI你可以从视频资料中获得你想要的知识。人类也是如此。做一个会玩游戏的人AI,有时候看视频就够了。
视频比教科书更进一步,即使观众什么都不懂,也不知道python每个人仍然可以从视频中获得语言、架构和蒙特卡洛算法的乐趣,然后潜移默化地理解知识。
在这一领域发挥代表性作用的是那些致力于设计游戏的人AI视频制作人。
首先要提到的是人们可能更熟悉的遗传算法,上世纪60年代提出的广大技术。
它类似于生物学意义上的进化论。具体来说,就是通过系统生成一堆什么都不懂的婴儿,让他们在自然(程序)世界中尝试各种操作,通过选择表现更好的子代不断优化。AI性能目的。
上一根油管《AI学习玩JUMP KING》以视频为例,大致场景如下。
500个孩子试试
视频作者Code Bullet(下文简称CB)这个算法已经成功制作了很多AI通关游戏视频,吃豆人《Flappy Bird》这种强调优化AI动作游戏可以沿着类似的想法走下去。
思路是清晰的,做起来也很“简单”。翻阅一下CB大部分制作AI可以看出,他的过程主要分为三部分。
制作一个会玩游戏的游戏AI只需三步
以后再讨论重做游戏的原因,CB视频的本质在于遗传算法的筛选功能。与自然选择不同,我们负责在这里选择AI的上帝。
刚出生的AI当然,什么都不懂的婴儿,给他们添加行动指令,AI我不知道在哪里行动有什么意义。所以常见的做法是随机行动。AI设置奖惩,如跳跃一次加1分,下一关加2分,左右移动加0分.5分,下跌扣1分。
往上走就好,往下走就坏,很简单。
每代AI只有五个行动机会。五次行动结束后,跳跃高度最高AI它将成为下一代的模范,然后每一代AI跟随上一代探索最好的路径——这是一个非常简单的进化。
然而,这样一个简单的规则并不能解决一些思考问题。如果一个关卡需要先下降,然后向上跳跃,那就死了AI会因为扣分原则而拒绝跳下去。
解决办法是在降落地点设置同样可以提供奖励的收集品,引导AI通过收集奖励,去更高的场景。
其实和游戏引导玩家的方式很像
所有程序准备好后,只要让AI自己跑,自然会一代代找到最好的路线,最后完成游戏通关任务。
经过862代的演变,就能达到顶峰
3
自AlphaGo 2017年从赛场退役已经五年了。从那以后,民用AI在游戏领域发光发热,在油管上使用AI玩《VALORANT》大富翁和糖豆人也有很多博主。
虽然没有公司的财政支持,也没有血泪帮助标记数据的研究生,但得益于Github对于开放性,每个网民都可以下到很多经过一定训练的神经网络程序。
一个小博主,油管上只有7000粉丝River例如,他的一期视频简单地展示了AI低门槛的技术。
前期准备很简单:只需要两台电脑,一个在线下载程序,一张视频采集卡,再加一个无线鼠标信号接收器。
要做的工作无非是标注一些供应AI训练识别能力的图片,一个小段指示行为模式的代码,然后直接扫描小地图指示方向,然后通过无线鼠标将键盘信号传输到计算机。
虽然发送信号有点麻烦,但也有好处,因为没有额外的程序访问游戏,所以不会判断使用插件。
所有的操作都是由另一台计算机根据实时图像制作的
当然,就目前的表现而言,River的AI也和普通的AI机器人差不多,没有AlphaGo神奇的自我进化能力。
然而,我只是想有一个简单的体验AI设计没有这么高的门槛。不断设计和更新更强的AI这也是一种有趣的行为,其中之一就是区分正确与错误之间的边界。
那是人(确信)
正如MineDojo我们正在教授程式化任务和抽象任务之间的区别AI也可以从AI在区分的结果中,获得自己对事物的定义和由此产生的解释可能会激励人类解决生活中的矛盾。
朋友问你今天过得怎么样,相亲时如何向对方介绍自己。如果每个问题都能用程序来回答,那就不是人类进化到更高层次的体现。
谁训练我,谁训练我?
侠盗[共612款]
飞车[共3459款]
-
模拟真实驾驶奥迪游戏手机中文版57.73MB赛车竞速
-
极品飞车热焰游戏官方版123MB赛车竞速
-
bike rush无限金币中文修改版下载(自行车冲刺)89MB益智休闲
-
3d驾驶课程全车辆解锁破解版下载79.66MB赛车竞速