主页 > F与生活 >DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》 >

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

集体智慧(collective intelligence)是人工智慧研究浪潮中不可忽视的重要课题。然而,智慧体如何在边界开放、约束动态的环境下学到知识并团队协作,仍是极具挑战性的难题。DeepMind 近年来针对基于种群的多智慧体强化学习大量研究,最新研究成果近日发表在国际权威杂誌《Science》。DeepMind 在部落格发文介绍这项成果,编译如下。

智慧体在多玩家电子游戏掌握策略、理解战术及团队合作是人工智慧研究领域的重大挑战。我们发表在《Science》杂誌的最新论文《Human-level performance in 3D multiplayer games with population-based reinforcement learning》,展示了智慧体在强化学习领域的最新进展,在《雷神之鎚 III 竞技场》(Quake III Arena)夺旗赛(CTF)取得与人类相当的性能。这是一个複杂的多智慧体环境,也是第一人称多玩家的经典 3D 游戏之一。这些智慧体成功与 AI 队友和人类队友合作,表现出很高的性能,即使在训练时,反应时间表现也与人类相当。此外,我们还展示了如何成功将这些方法从研究 CTF 环境扩展到完整的《雷神之鎚 III 竞技场》游戏。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

玩 CTF 游戏的智慧体,以其中一个红色玩家为第一人称视角展现的室内环境(左图)和室外环境(右图)。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

 智慧体在完整的锦标赛地图的另外两个《雷神之鎚 III 竞技场》多人游戏模式下进行游戏:在「Future Crossings」地图进行收割者模式(左图),在「ironwood」地图进行单旗夺旗模式(右图),游戏中可拾取并使用完整版游戏的所有的道具。

目前数十亿人住在地球上,每个人都有自己的目标和行为。但人们仍能透过团队、组织和社会团结在一起,展示出非凡的集体智慧。我们将这种情况称为多智慧体学习:许多独立的智慧体必须单独行动,但同时也要学会与其他智慧体互动和合作。这是非常困难的问题,因为需要适应其他智慧体,所处的世界环境就会不断变化。

为了研究这个问题,我们着眼于第一人称的多人三维电子游戏。这些游戏也代表目前最流行的一类电子游戏,由于能为用户提供沉浸式游戏体验,这类游戏充分开发数百万玩家的想像力,同时也对玩家在策略、战术、手眼协调及团队合作等方面提出挑战。我们的智慧体面临的挑战便是直接利用原始像素生成决策行为。这种複杂性也使第一人称多人游戏在人工智慧领域成为硕果累累、朝气蓬勃的专题研究。

夺旗赛:根据像素做动作决策

这项研究中,我们聚焦于《雷神之鎚 III 竞技场》(保证所有游戏机制不变的情况下,我们微调了美工)。《雷神之鎚 III 竞技场》是许多现代第一人称电子游戏的奠基者,曾在电子竞技舞台风靡一时。我们训练智慧体像人类玩家学习和行动,但它们必须以团队合作方式与其他智慧体(无论 AI 玩家还是人类玩家)合作或对抗。

CTF 的规则很简单,但动态变化非常複杂。两队独立玩家比赛的方式是:在给定的地图以夺取对方队伍的旗帜为目标,同时保护自己的旗帜。为了获得战术优势,玩家可攻击对方战队的玩家,将之送回复活点。5 分钟的游戏时间结束后,获得旗帜数量最多的队伍获得胜利。

从多智慧体视角来说,CTF 要求玩家同时做到与队友通力合作及与对手队伍对抗,并且还要对可能遇到的任何比赛方式保持强健性。

为了让工作更有趣,我们还考虑了 CTF 变体形式,其中的地图布局每经过一场比赛就会变化。结果,智慧体被迫取得通用策略,而不是记住地图布局。此外,为了竞争公平性,智慧体在学习过程以与人类相似的方式探索 CTF 的世界:它们会观察一组图像的像素流,然后透过模拟的控制器採取行动。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

在程序生成的环境进行 CTF,这样一来智慧体的能力必须泛化到没有见过的地图。

智慧体必须从头开始学会如何观察环境、执行动作、合作及在未见过的环境竞争,所有这些都学自每场比赛的单个强化信号:它们的团队是否获胜。这是一个极具挑战的学习问题,解决方案是以下强化学习的 3 种通用思想为基础:

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

「为了胜利」(FTW)智慧体的架构示意图,融合快速和慢速两种时标的循环神经网路(RNN),包括一个共享的记忆体模组,并学习从游戏点到内部奖励的转换。

最终得到的智慧体称为 FTW 智慧体,它们学习以非常高的水準外 CTF 游戏。非常重要的一点是,学到的智慧体策略对地图尺寸、队友数量及队伍其他成员等参数变化需要具强健性。以下,你可以探索一些户外程式环境的游戏(其中 FTW 智慧体相互对抗),也可以探索一些人类和智慧体在室内程式环境一起玩的游戏。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

互动式的 CTF 游戏探索器,具有程序生成的室内和室外两种环境。室外地图上的游戏在 FTW 智慧体之间开展,而室内地图的游戏则是人类和 FTW 智慧体玩家的混合游戏。

我们进行一场包括 40 名人类玩家的游戏比赛,人类玩家和智慧体随机配对,既有可能成为对手,也可能成为队友。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

先前的测试比赛,对战双方是人类 CTF 玩家和受过训练的其他人类玩家和智慧体。

FTW 智慧体透过学习变得比强基线方法强大得多,并超过人类玩家的胜率。事实上,针对游戏参与者的调查,智慧体比人类表现出更高的合作性。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

智慧体训练时的性能。新 FTW 智慧体获得比人类玩家和基线方法(Self-play+RS 和 Self-play)高的 Elo 等级分(对应获胜概率)。

除了评估模型性能,理解这些智慧体的行为及内部表徵的複杂度也非常重要。

为了理解智慧体如何表示游戏状态,我们研究智慧体神经网路的触发模式,并绘製在一个平面上。下图中,一群群的点代表游戏各种情景,相邻的点则代表相似的触发模式。我们根据高水準 CTF 游戏状态涂色这些点,包括:智慧体在哪个房间?旗帜的状态如何?可以看到哪些队友和对手?我们观察到颜色相同的点簇,代表的是智慧体以相似的方式表示相似的高水準游戏状态。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

智慧体如何表达游戏世界?根据每个代表神经触发模式的点与其他点的相似程度,绘製出某时刻的神经触发模式示意图:距离越近的两个点触发模式越相似。接着,我们会根据它们在该时刻的情景着色──相同颜色代表相同情景。可看到,这些神经元触发模式组织起来,形成不同颜色的簇,这意味着智慧体确实以一种有规则、有组织的方式表示游戏玩法某些有意义的因素。这些训练后的智慧体甚至展示出直接编码特定情况的人工神经元。

智慧体从未被告知任何有关游戏规则的讯息,它们需要学习 CTF 的基本游戏概念,并发展出有效的直觉。事实上,我们可以发现,某些特定神经元会直接编码最重要的游戏状态(如当智慧体的旗帜被夺走,或智慧体的队友拿到旗帜时,某个神经元就会触发)。论文进一步分析智慧体利用记忆体和使用视觉注意力机制。

表现与人类相媲美的智慧体

智慧体的游戏表现如何,又如何採取行动?

首先,我们注意到智慧体的反应时间非常短,且攻击十分精準,这或许解释了他们为什幺会有如此出色的表现(「攻击」是一种战术行为,能将对手送回出发点)。人类对这些感官输入的处理和反应速度相对慢一些,这是因为人类的生物讯号比智慧体的电子讯号要慢。这有个反应时间测试的例子,可以自己动手试试。

因此,智慧体的卓越表现可能要归功于更快的视觉处理和运动控制能力。然而,透过人为降低攻击的準确率、增加反应时间,我们发现这只是它们取得成功的众多因素之一。更深入的研究中,我们训练了预设 1/4 秒(267 毫秒)延迟的智慧体。也就是说,这些智慧体在观察世界前会有 267 毫秒滞后,这与统计的人类电子游戏玩家反应时间相当。儘管如此,这些反应延迟的智慧体仍然比人类玩家的表现要好:人类玩家的强者在智慧体面前只有 21% 胜率。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

 人类玩家在反应延迟的智慧体面前,胜率也很低,这说明即使反应延迟时间与人类相当,智慧体也比人类玩家表现好。除此之外,透过观察人类玩家和反应延迟的智慧体的玩游戏情况,我们可以看到两者发生攻击事件的数目相当,说明这些智慧体在这方面与人类相比并不具优势。

透过无监督学习,我们构建智慧体和人类的原型行为模式,发现智慧体实际上是学到类似人类的行为,例如跟随队友及在对手基地蹲点。

DeepMind 在多智慧体强化学习又有新进展,最新成果登上《Science》

 範例中,经过训练的 3 个智慧体可以自动发现行为。

透过强化学习和种群水準演进,这些行为逐渐出现于训练过程。随着智慧体学会透过更複杂的方式合作,就会逐渐淘汰掉像跟随队友这样的简单行为。

 FTW 智慧体种群的训练过程。左上角:30 个智慧体在训练和相互演化的过程中得到的 Elo 等级评分。右上角:这些演化事件的遗传树。底部图片显示在智慧体的训练过程中知识、内部奖励及行为概率的变化情况。

未来的研究

儘管论文重点是 CTF,但我们的工作对科学研究的贡献是通用的,我们非常乐见其他研究者基于我们的技术在各不相同的複杂环境开发相关技术。自从最初发表这些实验结果以来,许多人成功将这些方法扩展到《雷神之鎚 III 竞技场》完整游戏,包括专业的游戏地图、更多 CTF 之外的多玩家游戏模式,以及更多道具拾捡和使用动作。初步结果表明,智慧体可在多种游戏模式和多张地图表现出很强的竞争力,并在测试比赛开始逐渐对人类研究者的技能提出挑战。实际上,这项工作提出的一些概念(如基于种群的多智慧体强化学习),构成我们对《星海争霸 II:自由之翼》设计的「AlphaStar agent」智慧体基石。

在另外两个《雷神之鎚 III 竞技场》多人游戏模式下的完整版锦标赛地图进行游戏的智慧体:「Future Crossing」地图的收割者模式,以及「Ironwood」地图的单旗夺旗模式。

总结来说,这项工作强调多智慧体训练在推动人工智慧发展的潜力:利用多智慧体训练提供的自然学习资讯,同时也能促使我们开发出甚至可与人类合作的强健智慧体。

相关推荐