自最早的虚拟国际象棋和单人纸牌游戏以来,视频游戏一直是开发人工智能(AI)的运动场。 机器对抗人类的每一次胜利都使算法更智能,更高效。 但是,为了解决现实世界中的问题(例如使包括驾驶和谈判在内的复杂任务自动化),这些算法必须在比棋盘游戏更复杂的环境中导航并学习团队合作。 到目前为止,教AI如何工作以及如何与其他玩家互动以取得成功一直是一项不可克服的任务。 在一项新研究中 ,研究人员详细介绍了一种训练AI算法以在流行的3D多人游戏中达到人类性能水平的方法,这是“夺旗”模式下Quake III Arena的改良版。 即使该游戏的任务很简单-两个相对的团队通过导航地图竞争捕捉对方的旗帜-获胜需要复杂的决策制定能力以及预测和响应其他玩家行为的能力。 这是AI在第一人称视频游戏中第一次获得类人技能。 那么研究人员是如何做到的呢?机器人学习曲线 在2019年,其他多人策略游戏也达到了AI研究的几个里程碑。 由“人工智能”控制的五个“机器人” 在DOTA 2游戏中击败了一支专业的电子竞技团队 。 在《星际争霸2》的游戏中,职业人类玩家也被AI击败 。 在所有情况下,都采用一种形式的强化学习 ,该算法通过反复试验以及与环境的相互作用来学习。 在DOTA 2上击败人类的五种机器人没有从人类的游戏中学到东西-他们是通过与自己的克隆人进行比赛来专门训练的 。 使他们击败专业玩家的改进来自扩展现有算法 。 由于计算机的速度,AI可以在几秒钟内玩完一部游戏,而这需要人类花几分钟甚至几小时才能玩完。 这使研究人员可以在10个月的实时时间内以45,000年的游戏时间来训练自己的AI。 2016年5月在莫斯科举行的Dota 2电子竞技比赛 。RomanKosolapov 最近的研究中的“夺旗”机器人也从零开始学习。 但是,与其与同一个克隆人竞争,不如创建一个由30个机器人组成的队列, 并对其内部奖励信号进行并行训练 。 然后,这个群体中的每个机器人都将一起玩耍并互相学习。 正如参与研究的科学家之一大卫·西尔弗(David Silver)指出的那样,人工智能开始“消除人类知识的束缚……并创造知识本身”。 人类的学习速度仍然比最先进的深度强化学习算法快得多 。 OpenAI的机器人和DeepMind的AlphaStar(玩星际争霸II的机器人)在达到人为的性能水平之前,都吞噬了数千年的游戏经验。 这种培训估计要花费数百万美元 。 尽管如此,能够在人类游戏中击败人类的自学型AI是一项令人兴奋的突破,它可能会改变我们对机器的看法。 人与机器的未来 人们通常将AI描绘为替代或补充人类能力 ,但很少将其作为成熟的团队成员来执行与人类相同的任务。 这些视频游戏实验涉及人机协作,因此可以窥见未来。 Capture the Flag的人类玩家认为机器人比其他人类更协作,但DOTA 2的玩家对其AI队友的反应喜忧参半。 一些人非常热情,说他们感到支持,并且从与他们一起玩耍中学到了东西。 专业的DOTA 2玩家Sheever谈到了与机器人合作的经验: 实际上感觉很好。 [AI队友]在某个时候为我献出了生命。 他试图帮助我,想着“我确定她知道她在做什么”,然后显然我没有。 但是,你知道,他相信我。 我与[人类]队友的关系不大。 其他人则不那么热情 ,但是由于交流是任何关系的基础,因此改善人机交流在未来将至关重要。 研究人员已经调整了一些功能,使机器人更加“人性化”,例如让机器人在比赛前的团队选拔中人为地等待,然后再选择角色 ,以免给人类造成压力。 但是,人工智能应该向我们学习还是继续自学? 在不模仿人类的情况下进行自我学习可以教会AI更高的效率和创造力,但这可以创建更适合于不涉及人类协作的任务的算法,例如仓储机器人。另一方面,有人可能会辩称,由人训练的机器会更直观-使用这种AI的人可以理解为什么机器会做到这一点。 随着AI变得越来越智能,我们将全力以赴以获得更多惊喜。
|
|
来自: 昵称70465532 > 《电子游戏》