人工智能与人类智能的竞赛：人机对抗智能技术全梳理

作者: 黄凯奇*, 兴军亮, 张俊格, 倪晚成, 徐博

来源：中国科学院自动化研究所智能系统与工程研究中心

引言

人工智能从诞生之始就以对抗人类智能为衡量准则(著名的图灵测试) 。作为人工智能研究的前沿方向，人机对抗技术一直是国内外人工智能研究的热点,以人机对抗为主要形式的人工智能研究为探寻机器智能的内在生长机制和关键技术原理提供了一个极佳的试验环境和验证途径.整个过程不仅能够让机器更加智能地为人类服务、将人类从一些繁复复杂的任务中解脱出来, 而且人类也能够借鉴机器智能的发展过程，提升自身的智能水平，更深刻地理解和掌握智能的内在本质和产生机理，进而推动整个社会由信息化向智能化发展。

发展历史

从1936年人工智能之父阿兰⋅图灵提出著名的“图灵测试”之后，人和机器之间进行智能对抗就成为了衡量机器智能发展水平的最重要标准。从实现最初的简单智能到不断进化成更为复杂的智能，对抗贯穿于人工智能中计算、感知和认知的3个阶段(图1)，从某种意义上讲，就如人类与自然环境的对抗促进了人类的进化，机器与人的对抗也必将让机器智能不断发展进化。

Figure 1 The development history of human-computer gaming

内涵及机理

虽然人机对抗智能技术获得极大的关注, 并在不同应用领域展现出应用前景, 但其理论及相关技术目前还没有一个系统性的描述, 本文将从内涵、机理对其进行阐述并在此基础上相关模型及关键技术。

3.1 人机对抗内涵

人机对抗是以机器和人类对抗为途径，以博弈学习等为核心技术来实现机器智能快速学习进化的研究方向。作为“图灵测试”的重要手段，人机对抗是验证机器智能的“试金石”，为探寻机器智能的内在生长机制和关键技术的验证提供有效试验环境、评价标准，具有重要科学研究意义和应用价值。

3.2 人机对抗机理

人机对抗机理研究对抗各要素及其相互联系，以及相互作用的运行规律与原理，涉及的要素包括人(机器的对手)、机器(对抗的AI)和环境(对抗的规则和条件等的集合体)，根据人机物3要素分析方法, 3要素相互作用分别形成一元博弈、二元博弈和三元博弈。人机对抗智能的科学问题可概括为博弈学习的可建模、可计算与可解释。

人机对抗模型及关键技术

和感知智能有所不同，人机对抗通常关注更为复杂的时序决策等认知智能，对其过程建模是一个高度复杂问题，因此认知决策建模是整个人机对抗中的核心关键环节。

本文将面向强对抗环境下的人机对抗决策流程归纳为感知、推理、决策和控制，将人机对抗关键技术归纳为对抗空间表示与建模、态势评估与推理、策略生成与优化、行动协同与控制4部分；通过对抗态势判读理解、认知预测、策略决策和行动实施，局部整体不断循环迭代增强, 自主提升对抗能力。人机对抗涉及的关键技术如图2所示。

Figure 2 Process modeling and key technology of human-computer gaming

4.1 对抗空间表示与建模

构建有效的知识表示模型，准确刻画对抗空间的决策要素构成、属性特征及要素之间的交互关系，是实现人机对抗的基础。巨复杂、高动态、强对抗环境具有决策要素海量高维、要素影响高度耦合、决策关键信息不完全等特性，使得对抗空间的定量表示极富挑战。

这方面可开展的研究包括：

（1）对抗空间要素实体–关系表示, 研究对抗空间中各类不同实体、实体属性及其交互关联关系, 构建决策要素的表示模型；

（2）对抗空间特征张量表示学习, 分析实体属性关系耦合和结构拓扑对个体及群体对抗能力的影响, 构建可解释的对抗空间的高维张量描述；

（3）层级化聚合演算规则建模, 融合经验表示与数值计算, 定义多因素、层级化的对抗态势和对抗能力聚合演算规则, 形成环境–我方–对手多元耦合的可计算表征体系；

（4）基于异构信息网络的抽象通用空间表示, 基于能力演算规则, 研究对抗要素的抽象态势表示, 减轻对抗场景依赖带来的噪声和数据稀疏影响。

4.2 对抗态势评估与推理

对抗态势是指对抗各方通过实力对比、调配和行动等形成的状态和趋势，态势的评估与推理为后续对抗策略生成与优化提供了依据。

面临着的挑战有：

（1）训练态势认知和预测模型的高水平对抗数据往往非常有限；

（2）对手信息往往是凌乱的、不完全的, 仅依据对手部分信息进行整体局势评估准确性较差；

（3）复杂对抗环境导致可用于态势评估的信息众多，难以有效进行融合以形成多角度层次化态势。

可开展的研究包括:

（1）高质量对抗数据的生成, 通过自主博弈或者生成式对抗网络等方法生成用于人机对抗建模与分析的高质量人机对抗数据；

（2）小样本学习, 研究在数据较少情况下通过迁移或自适应等方法实现对抗态势的直接评估；

（3）对方信息估计, 研究结合历史信息与当前对抗环境实现从底层到高层的对手动作估计、意图识别与策略估计；

（4）态势层次化认知, 研究结合多源异构信息进行态势的多角度层次化评估与推理。

4.3 对抗策略生成与优化

对抗策略主要涉及多智能体协同的任务规划，解决群体与单体的行动规划问题。

其技术挑战在于：

（1）不完全信息使得对手位置、行为、企图不能完全知道，对手行为概率模型未知导致策略选择保守, 需要进行不完全信息下博弈策略选择；

（2）宏观决策收益反馈滞后，使得宏观决策的效应需要经过较长时间才能体现, 导致决策行为与效益之间难以形成有效映射；

（3）行动能力与环境深度耦合,忽略了局部环境因素可能导致策略分析严重偏差，过度详细分析又导致对抗空间难以约减。

针对策略生成和优化方面的挑战，利用策略游戏如星际争霸作为平台开展研究是国际上较为公认的方式。

可开展的研究包括：

（1）宏观策略生成，针对面向使命任务的全局博弈对抗问题，构建分层任务分解与任务协同机制，实现复杂群体博弈对抗问题向低维空间约减；

（2）微观策略生成, 针对局部博弈对抗问题, 构建微型群体局部策略自适应机制, 实现微型群体的强博弈对抗能力与环境迁移能力；

（3）策略优化方法，针对策略能力需要自主提升的问题，构建博弈策略的评价机制和学习型策略演进机制，实现博弈策略的自主进化与能力提升。

4.4 对抗行动协同与控制

策略的执行需要多个智能体的行动协同，各智能体在自身信息获取与初步认知的基础上，利用资源贡献、信息连通、要素融合、虚拟协作、智能辅助等功能，将多个单元虚拟协同, 形成整合的群体行动协同与控制。多智能体协同的难点包括:多智能体的学习目标，个体回报和团队回报的关系，学习过程中各智能体之间的作用和影响，联合状态和联合动作的获取，扩大的状态空间和动作空间导致的维数灾难等问题。

目前相关研究工作主要集中在多智能体协同与学习方面。可开展的研究包括：

（1）从协同过程可分为序列策略表征、协同机制优化、异构多智能体协同以及多元协同的融合；

（2）从协同任务类型可分为同任务合作智能协同、异任务资源协调等；

（3）从理论上突破去中心化、通信中断的默契型协作方法，任务涵盖序列化任务、多层次任务、多领域任务等，实现场景类型全覆盖，协同方式多元化，为训练提供高质量协同策略。

应用及挑战

人机对抗智能技术的应用领域涉及棋牌类游戏、即时策略游戏、兵棋推演等，在多个领域内机器智能已经达到并超过了该领域的人类顶级选手，不断刷新博弈对抗记录,显示出了新一轮人工智能技术在认知决策方面的鲜明特点。

5.1 棋牌类策略游戏对抗

棋牌类策略游戏一直以来都被用作测试计算机智能发展水平的参考标准。这些游戏由于简单的规则和丰富的玩法而深受全球范围内的广大爱好者的喜爱。同样由于其规则的确定性，加之游戏环境可控性和不完全信息等特性，吸引了人工智能领域的持续研究。

DeepMind公司提出的AlphaGo技术在围棋人机对抗中获胜

在1对1无限注德州扑克中，

DeepStack成为了第1个击败职业选手的德州扑克AI程序；

卡内基梅隆大学的研究者提出的名为Libratus的德州扑克AI算法，同样击败了多名顶尖的职业德州扑克选手。

5.2 即时策略游戏对抗

即时策略游戏是另一种常用于评估机器智能的平台，和棋牌类游戏相比，其整个对抗过程即时进行。通常情况下，该类游戏包含资源采集、基地建造、发展科技等若干因素，游戏玩家需要平衡不同因素并控制单个或者多个被控制单元以完成对抗，经典的实时策略游戏包括星际争霸以及Dota2等。得益于国际AI赛事以及企业与学术界的友好合作，即时策略游戏AI取得了长足的进展。

星际争霸AI程序AlphaStar以10:1击败了人类专业选手

相关的AI算法包括基于多智能体强化学习实现被控单元间微操的控制，基于深度神经网络模型进行宏观战斗决策的制定,以及基于状态机模型实现对抗过程的演化等。尽管深度强化学习技术在多个游戏中具有不俗的表现，如何提高模型的稳定性以及性能以击败顶级人类玩家、如何实现模型的可解释以支撑学习的可信任建模仍需要AI算法的不断突破。

5.3 军事模拟及推演对抗

军事模拟及推演由于其战略意义，长期以来受到国家层面的关注，其对抗演练具有重要实用价值.随着博弈对抗规模的扩大，对抗空间呈现指数级增长，多兵种协同与环境耦合的问题凸显，战争系统具有强非线性和高动态等复杂特性，解析计算和随机逼近最佳策略都存在巨大挑战；人机对抗需要发展对手行为意识建模和协同演化博弈策略，以不断提升对抗能力。