为什么选择捉迷藏?
游戏中的AI以人形状态显示(如上图红、蓝部分所示),它们可以执行三种类型的操作:找“人”、抓取和移动物体;同时它们还可以锁定要寻找的目标,一旦锁定找到,这些目标只能由AI或其队友解锁。 游戏玩家包括:1-3名“躲避者”和1-3名“搜寻者”。它们被置于模拟房间中,房间四周为静态墙壁环绕,其中还包括各类不同大小的活动箱子和活动坡道作为游戏“障碍”设置。 研究人员使用强化学习(Reinforcement Learning)来训练游戏中的AI,游戏的奖励机制也遵循了捉迷藏的规则,较为易懂简单。
AI如何捉迷藏?
整个训练过程,AI会经历几个阶段的策略演变。一开始,躲避方(图中蓝色部分)只学会如何躲避、不被找到。随着游戏的进行,它们学会了团队合作,开始利用周围的障碍物,比如移动箱子挡门,这样搜寻者便无法轻易进入虚拟房间。
搜寻方(图中红色部分)也并不会就此善罢甘休,因为几只箱子而打“退堂鼓”!于是它们便制定相应的应对策略,例如借助虚拟房间里的活动坡道,翻墙而过。
你来我往中,躲避方学会了使用加长型的箱子挡门,来建造更坚固的“堡垒”。研究人员当时以为捉迷藏游戏胜负已定时,搜寻方竟开始“绝地反击”!它们利用箱子移动时的动力,站在箱子上,快要接近“堡垒”时,一跃而入。
游戏最后阶段,躲避方见势不对,便又学会了在建造“堡垒”之前锁上所有的散落在房间内箱子,以抵御搜寻者接近。
从完整的捉迷游戏过程看来,研发团队直言,成绩喜人。AI的团队协作性也因此得以实现,但是该系统目前还是存在一些bug。一方面是“人”为的bug。研发人员表示,一些AI智能体有时会有一些“聪明过头”的行为,比如,躲避者试图逃离游戏区域(也就是上文所说的虚拟房间),想要一劳永逸防止被找到,这时候研究人员就会有相应的惩罚措施并使其重回“赛场”。
关于未来
OpenAI最近已经开源了该系统代码以及部署环境,以鼓励同行在这一领域的深入研究。
其实这样的技术进步,不仅推动了游戏领域的设计与开发。还有可能作为研究通用人工智能(AGI)的第一步,将其转化为解决现实世界问题的能力,比如,未来可能将AGI技术应用于预测诊断疾病、预测复杂蛋白质结构等实用性领域。
题图来源:Pixabay
参考资料
[1] Why Playing Hide-and-Seek Could Lead AI to HumanlikeIntelligence Retrieved Sep 18, 2019 from https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/
[2] OpenAI teaches AI teamwork by playing hide-and-seek RetrievedSep 18, 2019 from https://venturebeat.com/2019/09/17/openai-and-deepmind-teach-ai-to-work-as-a-team-by-playing-hide-and-seek/
[3] Emergent Tool Use from Multi-Agent Interaction Retrieved Sep18, 2019 from https://openai.com/blog/emergent-tool-use/