学界 DeepMind 在多智慧体强化学习方面又有了新进展 最新成果登上 Science 杂志 _进

学界 DeepMind 在多智慧体强化学习方面又有了新进展 最新成果登上 Science 杂志 _进行

智慧体与 AI 或人类队友协作打游戏,表现媲美人类玩家。

AI 科技评论按:集体智慧(collective intelligence)是人工智能研究浪潮中不可被忽视的重要课题。然而,智慧体如何在边界开放、约束动态的环境下学习到知识,并且进行团队协作仍然是极具挑战的难题。DeepMind 近年来针对基于种群的多智慧体强化学习进行了大量的研究,其最新研究成果近日发表在了国际权威杂志“Science”上。DeepMind 发部落格将这一成果进行了介绍,AI 科技评论编译如下。

智慧体在多玩家电子游戏中掌握策略、理解战术以及进行团队协作是人工智能研究领域的重大挑战。我们发表在“科学”杂志上的最新论文“Human-level performance in 3D multiplayer games with population-based reinforcement learning”中,展示了智慧体在强化学习领域的最新进展,在“Quake III Arena”夺旗赛(CTF)中取得了与人类水平相当的效能。这是一个复杂的多智慧体环境,也是第一人称多玩家的经典三维游戏之一。这些智慧体成功地与 AI 队友和人类队友协作,表现出了很高的效能,即使在训练时其反应时间,表现也与人类相当。此外,我们还展示了如何能够成功地将这些方法从研究 CTF 环境中扩充套件到完整的“Quake III Arena”游戏中。

论文地址(Science):

https://science.sciencemag.org/cgi/doi/10.1126/science.aau6249

玩CTF游戏的智慧体,以其中一个红色玩家为第一人称视角展现的室内环境(左图)和室外环境(右图)。

智慧体在完整的锦标赛地图上的另外两个“Quake III Arena”多人游戏模式下进行游戏:在“Future Crossings”地图上进行收割者模式的游戏(左图),在“ironwood”地图上进行单旗夺旗模式的游戏(右图),在游戏中可以拾取并使用完整版游戏的所有的道具。

目前,有数十亿人居住在地球上,每个人都有自己独特的目标和行为。但人们仍然能够通过团队、组织和社会团结在一起,展示出非凡的集体智慧。我们将这种情况称为多智慧体学习:许多独立的智慧体必须各自单独行动,但同时也要学会与的智慧体进行互动和协作。这是一个非常困难的问题,因为需要协同适应其他的智慧体,它们所处的世界环境就会不断变化。

为了研究这个问题,我们着眼于第一人称的多人三维电子游戏。这些游戏也代表着目前最流行的一类电子游戏,由于能够为使用者提供沉浸式的游戏体验,这类游戏充分开发了数百万玩家的想象力,同时也对玩家在策略、战术、手眼协调以及团队协作等方面提出了挑战。我们的智慧体所面临的挑战便是直接利用原始画素来生成决策行为。这种复杂性也使得第一人称多人游戏在人工智能研究领域中成为了一个硕果累累、朝气蓬勃的研究领域。

夺旗赛:根据画素做出动作决策

在这项研究中,我们聚焦于“Quake III Arena”游戏(在保证所有的游戏机制维持不变的情况下,我们对美工进行了微调)。“Quake III Arena”是许多现代第一人称电子游戏的奠基者,曾经在电子竞技舞台上风靡一时。我们训练智慧体像人类玩家一样学习和行动,但是它们必须能够以团队协作的方式与智慧体(无论是 AI 玩家还是人类玩家)合作或对抗。