如何测量智能产品的AI智商水平，论AI的三种智商 |未来研究

前言：本文是未来智能实验室关于人工智能智商的最新研究文章，主要提出智能系统的智能水平会因为测试目的的不同，产生三种不同的智商类型，针对这三种AI智商，本文也提出对应的测试方法和数学公式。相关英文论文与2017年12月19日发表在美国康奈尔大学的预印本网站arxiv.org上，论文地址为：https://arxiv.org/abs/1712.06440

我们在研究中发现，人类在讨论AI的智能发展水平时，需求和目的并不相同，由此在评估AI智商时也会出现差异，第一个目的和需求是评判当前的AI系统（或机器人）是否在智力上超越人类，第二个需求和目的是了解一个智能产品在服务人类时，究竟有多么聪明，和要付出多少价格。根据这一关键区别，未来智能实验室提出AI系统应该存在三种智商，分别是通用智商、服务智商和价值智商。

作者：互联网进化论作者，计算机博士刘锋

0.背景

伴随着2016年AlphaGo战胜人类围棋冠军李世石，世界范围人工智能迅猛发展，人工智能威胁论也因此广泛传播，同时智能产品蓬勃发展，不断涌现。人工智能究竟能不能超越人类？这些智能产品的智能究竟达到什么水平？回答这些问题都需要用定量的方法测试智能系统的发展水平。

从1950年图灵测试提出以来，科学家已经为人工智能发展的评价体系做了很多工作。1950年，图灵提出了著名的图灵实验，采用提问和人类裁判的方法，判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法，但图灵测试并不检验Ai的智能发展水平，只是判断智能系统能否与人类智能相同，而且受人为因素干扰太多，严重依赖于裁判者和被测试者的主观判断，因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试，

2015年3月24日“美国科学院院刊（PNAS)发表一篇论文，提出一种新的图灵测试方法“Visual Turing test” ，这种测试方法用来对计算机的图像认知能力进行更为深入的评估。

2014年美国佐治亚技术学院的瑞德教授（Mark O. Riedl）认为，智能的本质在于创造力。他设计了一个叫做Lovelace 2.0 版本的测试。Lovelace 2.0 的测试范围包括：创作有虚拟故事的小说、诗歌创作、油画和音乐等。

在解决人工智能定量测试的问题上，包括图灵测试在内的各种方案还存在两个问题：第一，这些测试方法没有形成统一的智能模型，并以此为基础进行分析，区分智能的多个分类。导致无法将不同的智能系统包括人类进行统一的测试；第二是这些测试方法无法定量分析人工智能，或者只定量分析智能的某个方面，但这个系统究竟达到人类智慧的百分之多少，发展速度与人类智慧发展速度比率如何，这些问题在上述研究中没有涉及。

针对这些问题，研究团队提出：根据评测目的的不同，智能系统的智能水平评估存在三种智商，分别是：智能系统的通用智商，服务智商和价值智商。这三种智商的理论基础，详细定义和评测方法将在以下内容中做详细阐述。

1.理论基础：标准智能系统和扩展的冯诺依曼架构

对智能系统包括人类和人工智能系统的智力能力进行评测面临两个重要挑战：第一，人工智能系统目前没有形成统一的模型；第二，人工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。

针对这一问题，2014年，中科院虚拟经济与数据科学研究中心同时也是未来智能实验室研究团队成员，刘锋，石勇，刘颖参考冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW模型体系等。提出“标准智能模型”，统一描述人工智能系统和人类的特征和属性，将任何一个智能体视为一个具有“知识的获取，掌握，创新和反馈”的系统。

基于这个模型与冯诺依曼架构结合，可以形成扩展的冯诺依曼架构，相比冯诺依曼架构，这个模型增加了创新创造功能，即能够根据已有的知识，发现新的知识元素和新的规律，使之进入到存储器，供计算机和控制器使用，并通过输入/输出系统与外部进行知识交互。第二个增加的是能够进行知识共享的外部知识库或云存储器，而冯·诺伊曼架构的外部存储只为单一系统服务。扩展的冯诺依曼架构在构建AI的智商中将起到重要的作用。

2.智能系统三种不同智商的定义

2.1 AI通用智商的提出

基于标准智能模型，研究团队建立AI智商测试量表，分别与2014年和2016年对包括谷歌、Siri、百度、Bing等50多个人工智能系统和6岁，12岁和18岁人群进行AI智商测试。从测试结果看，谷歌、百度等人工智能系统的性能比两年前已有大幅提高，但仍与6岁儿童有一定差距.

应该说上述AI智商测试是为了解决AI能否超越人类智能这个问题而开展的，这个研究是将每一个智能系统包括机器人，AI软件系统，人类，动物和其他生物当做平等的智能体，观察其与自然界，其他智能体在交互中显示出来的智能水平。

AI通用智商的定义如下：基于标准智能模型，为了解决“评价各智能系统发展水平高低”的问题，将各智能系统视为平等的智能体，通过统一的AI智商测试量表形成的智能评测分数，可以称为AI系统的通用智商 Artificial intelligence General intelligence quotient （AI G IQ）。

2.2. AI服务智商的提出

在实践中，我们发现除了少数AI系统的产生是出于科学实验目的，不为人类提供辅助性服务，其他大多数AI系统是为了更好的服务于人类而被制造出来，它的智能也主要体现在为人类服务的过程中，智能水平越高，也就能更好的为人类提供服务。

这种情况下，如果用AI的通用智商标准进行评测，就明显与产品的最初被制造出来的目的有重大差异。这就需要我们根据此类AI系统的特点，基于标准智能模型，选择与服务相关的指标进行评测，

这些指标与AI的通用智商评测指标有相关性，但又有比较大的差异。包括对人工智能的法律，伦理道德等约束条件也应该放在智能系统服务智商中。而不用放在智能系统的通用智商中。

AI服务智商的定义：基于标准智能模型，为了回答“智能系统如何才是更好的服务于人类”的问题，对智能产品在服务过程中体现的智能水平进行测试，并形成的智能评测分数，可以称为AI系统的服务智商，Artificial intelligence seveice intelligence quotient （AI S IQ）。

2.3.AI价值智商提出

为人类提供服务或支撑性工作的AI系统，往往会由不同的公司和企业提供相应的智能产品，例如智能音箱就有亚马逊、百度等品牌，智能聊天机器人包括科大讯飞、苹果Siri等，由于是由不同企业生产制造，完成相同或相近功能，每个企业的造价或售价也会不同，服务智商与成本或价格关联会对消费者购买智能产品产生重要的影响。

AI价值智商的定义：基于标准智能模型，为了帮助使用者判断需要用多大经济代价获得智能系统的智力能力，将智能系统的服务智商除以该系统的出售价格，形成的智能评测分数，可以称为AI系统的价值智商，Artificial intelligence Value intelligence quotient （AI V IQ）。

3.智能系统通用智商和服务智商的测试量表设计。

3.1.智能系统通用智商的测试量表

为了解决AI能否超越人类智慧的问题，2014年开始，本文研究者根据标准智能模型把智能分为“知识的获取，掌握，创新和反馈”四类能力，在这四类之下又分成15个小分类能力，从更多维度评测AI，人类的智能。这15个小分类是：图像、文字、声音的识别和输出，常识、计算、翻译、排列，创作、挑选、猜测、发现等能力，每个小分类有不同的权重。

2017年，根据人工智能的发展和对智能的最新研究。研究团队将AI通用智商评测量表从测试分类和分类权重进行调整，主要调整的内容增加了:1.识别动态图像的能力，2.情绪的识别与表达能力，3.识别敌我的能力，4.伪装真实意图的能力，5.实现移动定位的能力，6.实现改造世界的能力。除此之外对常识和创作的测试也做了更为细化的工作。