鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
如果让AI玩2048这样的游戏会是什么样的画面?
现在,有些人强化学习的方法来练习。
于是,插上DQN的翅膀,AI从零开始,我想出了《2048》的玩法:
一起手,有内味吗?
这个操作,清晰到让人觉得舒服。1000,no;1024,yes强迫症忍不住称赞这个AI贡献了800 reddit热度。
用DQN玩《2048》调教这只会玩《2048》AI是巴西老哥Felipe Marcelino。目前正在米纳斯吉拉斯联邦大学学习CS硕士。
首先,他采用了OpenAI Gym构建自定义强化学习环境。
2048年棋盘有两种表现方式:
二进制-使用二次力矩阵表示非二进制-原始数字矩阵模型包括两种神经网络:CNN和MLP(多层感知机)。
据Felipe介绍,与MLP相比,以CNN智能体作为特征提取器表现得更好。
训练结束后,哥哥在1000个游戏中进行了测试,AI2048年达到100次。
玩《2048》的AI们目前,这只用DQN训练出的AI玩到2048就停了。
然而,巴西兄弟抛砖吸引了许多盆友献玉。
例如,2048控制器也采用了强化学习的方法,将时差学习与最大期望搜索相结合。
在10步/秒的策略下,它最多可以凑出32768。
在追求高分的路上,一位来自日本的球员表现出色。
依托7个卷积层的深度卷积网络,这款游戏在《2048》中最高得到401912分。
正如一位网友所说:这是一个足够有趣且不太复杂的强化学习案例。
如果你刚刚开始学习强化学习,不妨用这个小项目练手~
参考链接
相关开源项目开源项目:
https://github.com/FelipeMarcelino/2048-gym
https://github.com/aszczepanski/2048
https://github.com/thomasahle/mcts-2048/
相关论文:
https://www.jstage.jst.go.jp/article/ipsjjip/27/0/27_340/_pdf
http://arxiv.org/abs/1604.05085
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间了解前沿科技动态