丰色 发自 凹非寺
量子位 | 公众号 QbitAI
你敢相信机器学习的顶峰NeurIPS严肃的比赛,其实是让你玩游戏,还有钱拿那种。
你要做的就是调教一支八支AI组成的团队,让他们在这样的地图上学会荒野生存。
在这个过程中,其他15支同规模的队伍会跟着你AI为了争夺生存资源,我们必须打架,搞装备,甚至跑毒,做生意……
如果你的AI特别抗揍,可以争夺单项奖里的“坦克奖”(手动狗头)。
如果你不想杀人,你也可以考虑以考虑采取经济路线:在竞争系统中增加了一个特殊的交易系统,这样小人物就可以专注于赚钱(销售设备),并有机会赢得出现的鼓励有趣策略Gold Farmer奖”。
你说你是新手吗?没关系,可以先打人机,再打排名~
可以说和我们平时玩的游戏没什么区别——只是用自己写的代码来比较。
当然,不要担心技术水平。只要你能编程,你就可以试试。赢的方法有很多。
至于奖金,组织者准备了2万美元,前16名都有份。
想试试?打起来打~
海量AI同台大乱斗,看AI玩36计这场比赛全称NeurIPS 2022-Neural MMO海量AI团队生存挑战赛的组织者是超参数技术、麻省理工学院、清华大学深圳国际研究生院和数据科学挑战平台AIcrowd。
就像它的名字一样,它的挑战场来自一个名字Neural MMO的平台。
该平台是OpenAI研究海量智能体战略的开源环境于2019年发布。
作者Joseph Suarez是MIT博士生的设计灵感来自于大型多人在线角色扮演游戏(MMORPG)。
它支持大量玩家在持久的(不重置)和广阔的环境中竞争和对抗,以及桌面级CPU跑步是一个极好的强化学习训练场。
基于Neural MMO面向世界的挑战赛AI技术从业者、研究者和爱好者。
只要你能编程,你就可以玩。当然,最好加强学习算法或优化操作和启发算法~
根据具体规则,每位选手需要在128年控制一支由8个智能体组成的团队x与其他15支队伍在128地图上自由对抗。
每个智能体只能看到155x15范围内的东西。
地图上有16个基本元素:
用来喝的水,能得到食物的森林,能正常踩踏的草,挡路的石头,踩死的岩浆;
可转化为可储存的食品资源鱼和蘑菇,可制成三种弹药矿石 ;
以及可收集的资源被收集后会退化成灌木丛,它有一定的再生概率;
等等。
每一步都可以执行很多动作:移动、选择攻击对象、选择攻击方法、使用背包中的设备、购买市场上的商品、销售商品和自由出价(在固定范围内)。
可发起的攻击包括近战攻击、远程攻击和魔法攻击,包括相应的武器和弹药来提高武力值,以及防御装甲和其他装备来提高他们的防御值。
比赛开始后,每支球队随机出生在地图的边缘,毒圈机制会让每个人慢慢聚集在地图的中间,让对手和高强度NPC会被迫正面对战,看哪个队KO智能体数最多,存活时间更长。
交易系统,毒圈机制……有趣又硬核是的,为了刺激比赛,不仅最初的无限游戏时间限制在1024步,除了平台本身提供的生存和攻击规则外,还增加了交易系统,扩大了设备类别,设计了多职业分工和毒圈机制。
其中:
通过攻击敌人和NPC获取弹药、武器、护甲等提高防御和攻击力的物品。
交易系统是本次比赛最大的亮点。
每一个智能体step可以自由买卖手中的装备。与敌人相比,队友有优先购买权(不能送),需要在1-100之间定价。
购买装备的钱可以不断杀死NPC或者其他玩家获得。
由于每个智能主体的背包容量有限,装备满后不能丢弃,只能销售,因此如何定价销售已成为一个问题(例如,如果敌人出售高级装备会对自己构成威胁)。
这种设置不仅为群体智能体提供了一种新的互动方式,而且使他们面临的决策更加复杂。
对于多职业分工机制来说,它的设定是让玩家通过扮演角色来赢得比赛。
例如,擅长近战攻击的人总是攻克近战能力,只购买近战装备,销售远程和魔法攻击装备;
善于收集的智能身体会低价向队友出售更先进的设备。
最后,毒圈机制规定,游戏在240步时开始缩小毒药,以迫使智能体尽可能进入地图中间的安全区域和更高级别NPC以及其他对手的正面battle。
双轨,根据实力入座那怎样比较呢?
为了不挫败新手玩家的热情,比赛设置了两条赛道:PvE和PvP。
PvE即“Player vs Environment,在赛道上,选手和内置AI一共打了十场比赛,排名第一,0.1分。
比赛有两个Stage,内置AI战略难度逐渐增加。
不过其策略是固定的,因此参赛者就可以得到有参照性的反馈,从而根据该反馈不断优化自己的策略,让效果可见,提振信心。
(想想看,如果一开始就和真正的选手在一起,PK,双方同时优化策略,如何知道自己的优化有没有进步?
如果你在PvE环节Stage 1得0.5分以上,恭喜,可以参加主场——
PvP,即“Player vs Player,是真实参赛者之间的竞争,奖金的大部分都在这里。
在这条赛道上,一切都是未知的,没有人知道会遇到什么样的策略。
而你那在PvE中取得好成绩的办法,可能在与其他选手的大乱斗中幸运脱颖而出,也可能被秒的落花流水。
PvP这个链接也不是一场决定胜负的游戏。为了保证公平,比赛将使用类似天梯赛的排名算法来滚动排名。
这还没完。
为了鼓励多样化,出现了更有趣的策略,比赛设立了两个单一奖项:
“Gold Farmer奖和坦克奖。
是的,这个坦克指的是T。一开始就提到,智能体需要学会在毒圈内外拼命跳跃,疯狂吸毒回血,成为游戏中最肉肉的男孩。
“Gold Farmer奖只需要执着于赚钱。
不得不说,这两个奖项的设置很有味道。
这么多关于比赛规则的介绍。
它不仅测试了对规则的理解,也测试了决策的深度为了减轻参赛选手熟悉环境和开始训练的成本,主办方特意准备了初学者工具包(Starter Kit)。
并基于Facebook的Torchbeast给出一个框架Baseline,选手只需几行代码即可运行Neural MMO训练环境。
此外,他们还开发了轻量级的产品Web Viewer,玩家可以像人类观察员一样,通过非常简化的过程,可以视化地观察每一局所有智能体的表现。
那么,正文上文所说,上手简单,且智能体学会喝水和采食就能存活,成为了比赛负责人陈嘉欣博士给出的第一个推荐参赛理由。
(如果比赛不当,可以算是有具体规则的任务,也可以用来强化学习。
第二个推荐理由:你说上手简单,但也有亿点的挑战性。
比如Neural MMO挑战赛考验了玩家的两种能力:理解游戏本身和使用决策算法。
鉴于每个游戏环境中有16支球队同时学习128个智能身体,智能身体不仅需要考虑他们想要什么奖励,如何与队友合作,还需要考虑对手可能采取什么策略。
此外,每场比赛都是多任务模式,决策链很长,最终的输赢奖励非常稀疏。
在层层设置的背后,每个智能主体所面临的选择都有更高的决策复杂性符合复杂的决策环境的现实。
例如,它们可以同时解决:
如何找到更节省时间的方法?如何不断攻击更强的?NPC为了获得更强大的设备?在游戏开始时,你选择先积累杀戮点还是获得设备?当游戏在240步开始缩小毒药时,保护生命是重要的,还是继续追逐外圈的敌人?NPC再赚点击杀分和装备?背包满了,是卖装备存放弹药和药水,还是不把高级装备卖给敌人?……具体决策取决于你怎么玩~
最后,陈博士还表示,本次比赛新增的交易系统也非常有趣和有趣,AI互动从基本的资源抢夺和相互攻击变得更加丰富和现实。
在这种设置下,智能身体应该学会买卖策略,从而慢慢演变AI这种设置在以往的研究环境中很少见。
所以大家都是第一次玩,没有前车之鉴铺路,能出现什么样的策略值得期待。
除上述三点外,我们还专注于比赛背后的多智能体决策技术。
事实上,这项研究的成果可以用于自动驾驶、无人机集群对抗、智能城市和工业领域。
此外,该技术还可以促进通用人工智能的发展。
所以,你真的不会试试这么有趣有价值的比赛吗?
此外,主办方还提供了丰厚的物质奖励。
除了物质奖励,获奖者还将被邀请作为共同作者写作Competition Report,发表在国内外技术博客上,可作为NeurIPS的会议report/paper发表。
10月30日参赛DDL最后,提出赛程时间表:
2022年8月18日-PvE2022年8月31日022年8月31日发布入门套件,开放提交系统-PvP开赛2022年9月22日-PvE2022年10月24日-2022年10月30日-最终提交截止日期(重点!!!)2022年10月31日至2022年11月15日-PvP2022年11月16日,十六强决赛宣布结果有兴趣的盆友可以扫描下图中的二维码参赛~
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间了解前沿科技动态