>游戏>>正文

从深蓝到AlphaGo,从Atari到星际争霸,游戏已成AI发展的核心驱动力

原标题:从深蓝到AlphaGo,从Atari到星际争霸,游戏已成AI发展的核心驱动力

1997年深蓝打败人类象棋冠军,2017年AlphaGo击败世界围棋第一人。

20年来,AI在游戏领域的进展其实远不只从象棋冠军到围棋冠军这么简单。

从Atari到星际争霸,游戏现在已然成了AI发展的核心驱动力。

近日在成都召开的腾讯全球合作伙伴大会上,来自腾讯AI Lab机器学习中心的负责人刘晗就此为议题展开讨论了游戏AI的重要性,游戏AI的分类及核心能力,此外他还提到了腾讯目前在研究游戏AI上遇到的核心挑战。

| 游戏AI是人工智能发展的核心驱动力

可能很多人对游戏AI是什么并不那么清楚,其实游戏AI是人工智能与博弈论的一个交叉领域。

  • 从小的方面来说,游戏AI研究如何用人工智能技术来提升人类玩游戏的体验。

  • 从大的方面来说,游戏AI研究人,智能体,以及环境之间的复杂交互关系。

可能对于大部分人来说这个解读有点抽象,那么智能君给大家从具体上来解读游戏AI。

刘晗在会上介绍说,游戏AI可分为两大类:

一类是玩家对玩家的PvP游戏,包括象棋,围棋,星际争霸这类单一玩家的游戏,以及篮球足球,DOTA这类多玩家的游戏。

另一类是玩家对环境的PvE游戏,包括Atari游戏,赛车游戏,以及各种网游游戏。尤其值得强调的是,著名的图灵测试本身就是一类PvE游戏。

那么为什么腾讯要研究游戏AI呢?

首先,从博弈论的观点来看,游戏AI被认为是理解通用人工智能的重要渠道。

换言之,如果人类连一个游戏AI都没办法搞定,那么通用人工智能大概率上注定是幻想。所以目前,很多巨头们都有在研究游戏AI,包括谷歌、Facebook、特斯拉等。

但刘晗提到了更主要的原因是因为:游戏AI是现代人工智能发展的核心驱动力。

  • 1950年起,人们开始用图灵测试定义人工智能。

  • 1997年,IBM的深蓝打败了人类的象棋世界冠军。

  • 2013年,DeepMind通过Atari游戏普及了通用人工智能的概念。

  • 2016年,AlphaGO打败了人类的围棋世界冠军。

所以,2016年现在也被大家称为现代人工智能元年。

从宏观上来看,游戏AI对人工智能的发展是具有历史性意义的。但从微观上来看,对于游戏本身,AI也有着重要的影响作用:将 AI 引入游戏会衍生出很多新玩法以及提高游戏体验。

首先,AI 在游戏设计中起到了相当重要的作用,在1951年的跳棋游戏中,设计者就试图在游戏中加入 AI 控制的角色,以提升游戏乐趣。

然后,在游戏运营方面,可以通过数据挖掘算法和机器学习算法了解网络的结构特征,以及玩家在游戏里的社交行为特征,进一步优化游戏体验。

再来,在游戏安全方面,能够利用 AI 筛选数据,能够提取玩家作弊特征、识别外挂、维护游戏公平竞争环境。游戏 AI 的探索目标是更人性化的队友,更有挑战性的敌人,和更加公平的游戏环境,进一步提升游戏的乐趣。

| 研究游戏AI并不那么容易,腾讯透露三大挑战的解决方案

研究游戏AI是对人工智能技术的一个重要探索,但如果做呢?我们需要去研究游戏AI的什么呢?

腾讯的做法可以作为一个参照,它主要是研究游戏AI的感知、对话与决策能力。

这三类能力相当于人类大脑的不同组成区域 :

  • 决策相当于人的大脑左脑模块

  • 对话是右脑模块

  • 感知相当于后脑模块

第一个核心能力是感知——强调如何把外部环境转换成机器能够表达和操作的内部状态。

比如在玩毁灭战士这个游戏的时候,AI程序在每一个时刻看到的其实是一张二维图像,这意味着AI将非常复杂的外部环境表达成一个数值向量来进行操作。

第二个核心能力是决策——强调如何把内部状态转化为可执行的动作。

还是在玩毁灭战士这个游戏的时候,AI程序要根据当前状态决定是否要开枪,还是向前奔跑,还是躲避敌人的攻击。

第三个核心能力是对话——也就是让机器具有使用自然语言沟通的能力。

这个能力在网游类,以及RPG类的游戏中非常重要。

以上这些能力在现实世界中具有非常大的作用,通过研究游戏AI可以攻克人工智能的一些壁垒。

感知、对话与决策,三个词看起来简单易懂,但在研究游戏AI的实际过程中,并不那么容易,因为会面临很多挑战。对于这点,会上刘晗解释了游戏AI研究的三个核心挑战以及腾讯处理这些挑战的解决方案。

挑战一、游戏的状态空间过大

举例来说很多战略型游戏的状态空间都是无穷维的,远远大于围棋的空间。

为了应对状态空间过大的挑战,腾讯提出了一套整合模型、算法与计算体系结构的解决方案,叫做腾讯机器大脑。

整个系统的核心是使用深度神经网络来建模超大规模的状态空间,这些神经网络模型能够支持两类核心算法,模仿学习与强化学习。

  • 模仿学习主要使用大规模的数据,以信息作为资源。

  • 强化学习主要使用模拟器,以计算作为资源。

强化学习跟AlphaGo非常相似,通过自博弈自思考拿到思维能力。所以,模仿学习和强化学习两个之间是互补的。

这整套的模型与算法都可以在云上部署,并通过随机梯度下降算法来学习。

挑战二、多智能体协调

多智能体协调指代的是许多复杂的多玩家游戏需要多个智能体的协调操作,目前这方面的理论还是比较缺乏的。

为了应对多智能体协调的挑战,腾讯提出了一份价值网络与行为树之间的融合与互操作的解决方案。

以DOTA这个游戏为例,作为一款5V5的游戏,从游戏AI的角度来看,这个游戏AI需要5个智能体来控制5个英雄,并且每个英雄自己有一套微观操作——比如当前选择哪一种攻击类型,转向哪个方向等等。同时,我们也需要多个智能体之间有宏观战略——比如智能体如何抱团推进,如何施法衔接等等。

从机器学习的角度,微观操作很适合用强化学习来实现,而宏观战略更适合于用行为树这种基于形式规则的系统来表达。

为了设计出一个完善的多智能体AI,腾讯需要研究的一个核心问题就是让强化学习的价值网络与描述宏观战略的行为树互操作,从而使其融合在一起,既拥有很强的微观能力,也有很强的宏观思想。

挑战三、虚拟世界与现实世界的打通

绝大部分游戏AI都是用模拟器在一个理想化的虚拟世界中开发的,如何完成虚拟与现实的打通,是一个核心挑战。

为了应对这个挑战,腾讯提出了一份贝叶斯升级加反向强化学习的方法,以及动态的探索机制。

游戏AI的开发主要是在理想化、受限的虚拟仿真器中。其主要的优点是试错成本低,迭代速度快。但这个虚拟世界只是对现实世界的一个简化,并不能完美的表达整个现实世界。

这样就存在一个现实差距,如何系统化地克服这个现实差距,实现虚拟世界与现实世界的打通就成为一个重要的问题。

腾讯的解决方案结合反向强化学习以及动态探索机制,对游戏AI中的参数进行贝叶斯升级。这样得到的系统能够保证用最小的物理世界花费,拿到非常完美的智能体。

| 结语

研究游戏AI的目的绝不仅仅是为了更好地打游戏,而是用研究游戏AI而开发出的方法对现实世界和物理世界进行更好的赋能,包括无人车,机器人,对话智能,以及智慧城市等等,所以其具有极为深远的意义。

拿由腾讯 AI Lab 研发的一款游戏AI: “绝艺”来举例:

“绝艺”和谷歌的阿尔法狗是同类,是会下围棋的人工智能程序,不过,它不如阿尔法狗名气大而已。但尽管如此,在阿尔法狗已经称霸围棋界的今天,腾讯依旧研究“绝艺”的意义是什么呢?

其实是隐藏在“绝艺”背后强大的AI能力及应用在各个场景的潜力。

目前,“绝艺”已经在陪练与棋手交流上体现巨大潜力;长期来看,“绝艺”背后“精准决策”的 AI 能力,可能在无人驾驶、量化金融、辅助医疗等多个领域应用。

如果从围棋 AI的完美对称博弈系统,进化到不完美对称博弈系统,也就是能处理现实中更常见的不确定性问题时,将提供更为巨大的想象空间,从而成为比较长远的应用。

游戏AI研究的是人和智能体和环境之间的复杂交互关系,这种复杂交互关系也是现在的重大课题。

但整个人工智能的研究是基础的,必然也是长久的。 返回搜狐,查看更多

责任编辑:

声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
阅读 ()
投诉
免费获取
今日推荐