如何测量智能产品的AI智商水平,论AI的三种智商 |未来研究


前言:本文是未来智能实验室关于人工智能智商的最新研究文章,主要提出智能系统的智能水平会因为测试目的的不同,产生三种不同的智商类型,针对这三种AI智商,本文也提出对应的测试方法和数学公式。相关英文论文与2017年12月19日发表在美国康奈尔大学的预印本网站arxiv.org上,论文地址为:https://arxiv.org/abs/1712.06440


我们在研究中发现,人类在讨论AI的智能发展水平时,需求和目的并不相同,由此在评估AI智商时也会出现差异,第一个目的和需求是评判当前的AI系统(或机器人)是否在智力上超越人类 ,第二个需求和目的是了解一个智能产品在服务人类时,究竟有多么聪明,和要付出多少价格。根据这一关键区别,未来智能实验室提出AI系统应该存在三种智商,分别是通用智商、服务智商和价值智商。


作者:互联网进化论作者,计算机博士刘锋


0.背景


伴随着2016年AlphaGo战胜人类围棋冠军李世石,世界范围人工智能迅猛发展,人工智能威胁论也因此广泛传播,同时智能产品蓬勃发展,不断涌现。人工智能究竟能不能超越人类?这些智能产品的智能究竟达到什么水平?回答这些问题都需要用定量的方法测试智能系统的发展水平。    


从1950年图灵测试提出以来,科学家已经为人工智能发展的评价体系做了很多工作。1950年,图灵提出了著名的图灵实验,采用提问和人类裁判的方法,判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法,但图灵测试并不检验Ai的智能发展水平,只是判断智能系统能否与人类智能相同,而且受人为因素干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试,


2015年3月24日“美国科学院院刊(PNAS)发表一篇论文,提出一种新的图灵测试方法“Visual Turing test” ,这种测试方法用来对计算机的图像认知能力进行更为深入的评估。

2014年美国佐治亚技术学院的瑞德教授(Mark O. Riedl)认为,智能的本质在于创造力。他设计了一个叫做Lovelace 2.0 版本的测试。Lovelace 2.0 的测试范围包括:创作有虚拟故事的小说、诗歌创作、油画和音乐等。


在解决人工智能定量测试的问题上,包括图灵测试在内的各种方案还存在两个问题:第一,这些测试方法没有形成统一的智能模型,并以此为基础进行分析,区分智能的多个分类。导致无法将不同的智能系统包括人类进行统一的测试;第二是这些测试方法无法定量分析人工智能,或者只定量分析智能的某个方面,但这个系统究竟达到人类智慧的百分之多少,发展速度与人类智慧发展速度比率如何,这些问题在上述研究中没有涉及。


针对这些问题,研究团队提出:根据评测目的的不同,智能系统的智能水平评估存在三种智商,分别是:智能系统的通用智商,服务智商和价值智商。这三种智商的理论基础,详细定义和评测方法将在以下内容中做详细阐述。


1.理论基础:标准智能系统和扩展的冯诺依曼架构


对智能系统包括人类和人工智能系统的智力能力进行评测面临两个重要挑战:第一,人工智能系统目前没有形成统一的模型;第二,人工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。


针对这一问题,2014年 ,中科院虚拟经济与数据科学研究中心同时也是未来智能实验室研究团队成员,刘锋,石勇,刘颖参考冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW模型体系等。提出“标准智能模型”,统一描述人工智能系统和人类的特征和属性,将任何一个智能体视为一个具有“知识的获取,掌握,创新和反馈”的系统。



基于这个模型与冯诺依曼架构结合,可以形成扩展的冯诺依曼架构,相比冯诺依曼架构,这个模型增加了创新创造功能,即能够根据已有的知识,发现新的知识元素和新的规律,使之进入到存储器,供计算机和控制器使用,并通过输入/输出系统与外部进行知识交互。第二个增加的是能够进行知识共享的外部知识库或云存储器,而冯·诺伊曼架构的外部存储只为单一系统服务。扩展的冯诺依曼架构在构建AI的智商中将起到重要的作用。



2.智能系统三种不同智商的定义


2.1 AI通用智商的提出


基于标准智能模型,研究团队建立AI智商测试量表,分别与2014年和2016年对包括谷歌、Siri、百度、Bing等50多个人工智能系统和6岁,12岁和18岁人群进行AI智商测试。从测试结果看,谷歌、百度等人工智能系统的性能比两年前已有大幅提高,但仍与6岁儿童有一定差距.



应该说上述AI智商测试是为了解决AI能否超越人类智能这个问题而开展的,这个研究是将每一个智能系统包括机器人,AI软件系统,人类,动物和其他生物当做平等的智能体,观察其与自然界,其他智能体在交互中显示出来的智能水平。




AI通用智商的定义如下:基于标准智能模型,为了解决“评价各智能系统发展水平高低”的问题,将各智能系统视为平等的智能体,通过统一的AI智商测试量表形成的智能评测分数,可以称为AI系统的通用智商 Artificial intelligence  General intelligence quotient (AI  G IQ)。


2.2. AI服务智商的提出


在实践中,我们发现除了少数AI系统的产生是出于科学实验目的,不为人类提供辅助性服务,其他大多数AI系统是为了更好的服务于人类而被制造出来,它的智能也主要体现在为人类服务的过程中,智能水平越高,也就能更好的为人类提供服务。





这种情况下,如果用AI的通用智商标准进行评测,就明显与产品的最初被制造出来的目的有重大差异。这就需要我们根据此类AI系统的特点,基于标准智能模型,选择与服务相关的指标进行评测,


这些指标与AI的通用智商评测指标有相关性,但又有比较大的差异。包括对人工智能的法律,伦理道德等约束条件也应该放在智能系统服务智商中。而不用放在智能系统的通用智商中。


AI服务智商的定义:基于标准智能模型,为了回答“智能系统如何才是更好的服务于人类”的问题,对智能产品在服务过程中体现的智能水平进行测试,并形成的智能评测分数,可以称为AI系统的服务智商,Artificial intelligence  seveice intelligence quotient (AI S IQ)。


2.3.AI价值智商提出


为人类提供服务或支撑性工作的AI系统,往往会由不同的公司和企业提供相应的智能产品,例如智能音箱就有亚马逊、百度等品牌,智能聊天机器人包括科大讯飞、苹果Siri等,由于是由不同企业生产制造,完成相同或相近功能,每个企业的造价或售价也会不同,服务智商与成本或价格关联会对消费者购买智能产品产生重要的影响。



AI价值智商的定义:基于标准智能模型,为了帮助使用者判断需要用多大经济代价获得智能系统的智力能力, 将智能系统的服务智商除以该系统的出售价格,形成的智能评测分数,可以称为AI系统的价值智商,Artificial intelligence  Value intelligence quotient (AI V IQ)。


3.智能系统通用智商和服务智商的测试量表设计。


3.1.智能系统通用智商的测试量表


为了解决AI能否超越人类智慧的问题,2014年开始,本文研究者根据标准智能模型把智能分为“知识的获取,掌握,创新和反馈”四类能力,在这四类之下又分成15个小分类能力,从更多维度评测AI,人类的智能。这15个小分类是:图像、文字、声音的识别和输出,常识、计算、翻译、排列,创作、挑选、猜测、发现等能力,每个小分类有不同的权重。


2017年,根据人工智能的发展和对智能的最新研究。研究团队将AI通用智商评测量表从测试分类和分类权重进行调整,主要调整的内容增加了:1.识别动态图像的能力,2.情绪的识别与表达能力,3.识别敌我的能力,4.伪装真实意图的能力,5.实现移动定位的能力,6.实现改造世界的能力。除此之外对常识和创作的测试也做了更为细化的工作。




令智能系统的通用智商为IQAIG,FGi是二级评价指标项得分,WGi是二级评价指标项的权重,N是评价指标项的个数。因此智能系统的通用智商公式如下:



3.2.智能系统的服务智商测试量表


目前存在大量智能系统,例如聊天机器人,智能化的搜索引擎,智能音箱,智能手机,智能汽车,智能洗衣机,智能冰箱等,它们大部分是作为商品服务于人类的某一需求,这些智能系统可以称为智能产品。


在标准智能系统和扩展的冯诺依曼架构下,提炼他们共同的智能特征,并根据不同的服务需求,形成如下智能系统服务智商的测试量表。在这个服务智商的测试量表中主要突出了以下几个方面.


1.感知周围智能系统和使用者身份的能力


2.与互联网云端交互的能力


3.将自身内部状况实时显示给使用者,出现故障给予支持的能力


4.按符合当地法律和伦理道德服务人类的能力


5.危险情况下保护使用者和其他人的能力


6.自身能源使用和自动补充的能力




智能系统的服务智商为IQAIS,FSi是二级评价指标项得分,WSi是二级评价指标项的权重,N是评价指标项的个数。因此智能系统的服务智商公式如下:



作为一个智能产品服务智商的标准量表,为了尽量全面的覆盖不同种类的智能产品,在设计智能产品服务智商测试量表时,在测试量表中从知识的获取,掌握,创新和反馈四个方面为同智能产品留下接口:


  1. 在知识的获取分类中增加了”其他”信息输入方式,用来评估智能产品在知识输入方面的新方式。


  2. 在知识的掌握中,增加了“专业常识”,用来评估不同领域智能产品的专业方面技能,


  3. 在知识的输出能力中,增加其他输出能力,用来评估智能产品在知识输出方面的新方式。


3.3 AI价值智商的形成方法


根据智能系统AI价值智商(AIVIQ)的定义,如果该智能系统通过出售变为产品服务于人类,令智能系统的服务智商为AISIQ,该智能产品的公开售价为P,形成智能系统价值智商的公式如下:


IQAIV=(IQAIS/p)*100


4.总结


通过AI三种智商认为,智能系统根据不同的使用和评测目标,可以有三种不同的智能水平评测方法和由此得出的三种智商:AI通用智商,AI服务智商和AI的价值智商,其中AI的通用智商已在2014年以来的论文中进行深入研究,也通过AI系统和人类的共同评测,分析了谷歌,SiRi,百度等与人类通用智商的差异。


本文新提出的AI服务智商和AI的价值智商为评测智能产品的智能水平提供了理论分析和实现方法。后续工作将基于AI服务智商量表,面向具体的智能产品,如智能音箱,智能手机,智能汽车,智能洗衣机,智能电冰箱等,开展他们的AI通用智商、服务智商和AI价值智商的评测工作。



未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

硅谷顶级VC:“S曲线”看四大风口,创企成功机会巨大

来源:全球技术地图新技术走入产业应用阶段,在完成了前期基础的试水后,大企业往往以雄厚的资本实力、强大的人才团队和广阔的市场资源,迅速占领新技术高地。那么顺应新技术而诞生的创业企业,还是否有打造成功企业的机会…

新型量子计算机首个基本元件问世,扩展性更强运算速度更快

来源:科技日报概要:最新研究证明了建造这种量子计算机的可行性,其有潜力克服目前的量子计算方法面临的扩展问题。据物理学家组织网近日报道,瑞典和奥地利物理学家携手,研制出了单量子比特里德伯(Rydberg&am…

Strut2中单元测试实例

项目文件结构图: 椭圆框中的Jar 包是单元测试时候需要引入的。 矩形框 MainTest 每个包下一个,为 JUnit4 的 Suite 套件,其作用是执行本包下的“测试类”和子包的 MainTest。 例如:jp.co.snjp.ht.MainTest package jp.co.snjp.h…

德国图宾根大学发布可扩展「对抗黑盒攻击」,仅通过观察决策即可愚弄深度神经网络

原文来源:arXiv作者:Wieland Brendel、Jonas Rauber、Matthias Bethge「雷克世界」编译:嗯~阿童木呀、哆啦A亮不知道大家有没有注意到,许多机器学习算法很容易受到几乎不可察觉的输入干扰的影响。到目前为止,我们还不清…

Understanding node.js

来源:http://debuggable.com/posts/understanding-node-js:4bd98440-45e4-4a9a-8ef7-0f7ecbdd56cb Node.js has generally caused two reactions in people Ive introduced it to. Basically people either "got it" right away, or they ended up being …

腾讯AI Lab刷新人脸检测与识别两大测评国际记录,技术日调用超六亿

来源:腾讯AI实验室概要:人脸检测是让机器找到图像视频中所有人脸并精准定位其位置信息,人脸识别是基于人脸图像自动辨识其身份,两者密切相关,前者是后者的前提和基础。腾讯AI Lab在国际最大、最难的人脸检测平台WIDER …

Jeff Dean| 面向系统的机器学习和面向机器学习的系统

来源:全球人工智能概要:我们将发布一系列内容,展示 Google 在 NIPS 2017 上发布的工作成果。首当其冲的便是来自 Jeff Dean 的 PPT 《面向系统的机器学习和面向机器学习的系统》。第 31 届神经信息处理系统年会(NIPS 2017&#xf…

mysql linux附加数据库文件夹,Linux全攻略--MySQL数据库配置与管理

MySQL是一种精巧的,多用户和多线程的中小型SQL数据库系统,由一个服务器守护进程mysqld和很多不同的客户程序和库组成.现在形成了一个"LinuxApachePHPMySQL"构建电子商务网站的黄金网站的黄金组合.MySQL不是开放源代码的产品,但在某些情况下可以自由使用.由于它的强大…

互联网如何促进经济发展?腾讯、谷歌、Facebook的实践和经验

来源:腾讯研究院右起:司晓 腾讯研究院院长李刚 腾讯研究院首席研究员Nicole Sremlau 牛津大学比较媒体法与政策项目负责人Pankaj Venugopal Facebook公司副总法律顾问Olivia Hatalsky Alphabet公司高级项目经理互联网正在成为社会生态的连接器&…

汇真科技李利鹏 :人工智能的应用边界

人工智能分为几个层面,首先是基础层,要有大数据云计算,因为你数据量大的话,要放到云端去处理,大数据、云计算、GPU/FPGA等硬件加速、新形态神经网络芯片等计算能力提供商。在技术层就是做机器学习、深度学习、增强学习…

CES 2018即将揭幕:AI平台之争烽烟骤起

来源:机器人创新生态概要:一年一度的国际消费电子展(CES)即将揭开序幕,今年有哪些值得观察的热门技术呢?一年一度的国际消费电子展(CES)即将揭开序幕,今年有哪些值得观察…

后缀表达式转变成表达式树

后缀表达式:abcde** 转换的表达式树: 转换步骤: 如果符号是操作数,那么就建立一个单节点树并将它推入栈中。 如果符号是操作符,那么就从栈中弹出两颗树 T1 和 T2 (T1 先弹出)并形成一棵新的树…

linux用户组登录,linux用户和用户组

1.用户组和权限管理用户分为三类:1.1 超级用户:root uid0,简单来说uid为0的用户就是超级用户。1.2 虚拟用户:存在linux中,满足文件或者程序运行的需要,而创建的。不能登录,不能使用。uid1-499,1-999(centos…

人工智能和厨房电器的结合:厨房助理机器人

来源:人工智能学家AItists概要:从智能家居到无人驾驶,人工智能正在落地的道路上。而其中一个让人觉得有点意外也很有趣的场景是:厨房。从智能家居到无人驾驶,人工智能正在落地的道路上。而其中一个让人觉得有点意外也很…

美国科学院学报:如何在竞争激烈的环境下维持稳定的群体

行为决策演化示意图。最上面一行是混合群体,下面两行是网络群体。相比于混合群体,网络促使合作者聚集成团簇,但是惩罚的加入将破坏合作环境。来源:中国科学院西安光机所李学龙研究员同合作者在数据驱动的行为决策研究方面取得阶段…

全球首个Magic Leap One体验:吓到你不敢进房间

来源:智东西概要:业内备受关注的AR技术公司Magic Leap,在获得19亿美元融资历经七年之后,终于放出其第一款头盔产品Magic Leap One,很快在科技圈、VR圈引起刷屏式关注。昨夜,业内备受关注的AR技术公司Magic …

ftp+linux+使用webdav,群晖-win/mac/nfs ftp tftp webdav文件服务的概念及设置

应用程序级别WebDAV 是一个 HTTP 的扩充服务,可让用户编辑和管理存储在远程服务器上的文件。通过 Synology DiskStation Manager 的 WebDAV 服务,支持 WebDAV 的客户端程序(如 Windows 资源管理器、Mac OS Finder、Linux 资源管理器)将能够远程访问 Syno…

二叉堆

满足如下结构性和堆序性,即为二叉堆。 结构性质:堆是一棵被完全填满的二叉树,有可能的例外是在底层,底层上的元素从左到右填入。这样的树称为完全二叉树。 容易证明,一棵高为 h 的完全二叉树有 2h 到 2h1-1 个节点。这…

伯克利AI研究院解析「反向课程学习」,改善「强化学习智能体」并应用于机器人技术

原文来源:arXiv作者:Wieland Brendel、Jonas Rauber、Matthias Bethge「雷克世界」编译:嗯~阿童木呀、哆啦A亮众所周知,强化学习(RL)是一种强大的技术,它能够解决诸如移动(locomotio…

《Science》评选2017年十大科学突破,看看有哪些吧!

来源:材料科学与工程概要:美国《科学》杂志21日公布了其评选出的2017年十大科学突破,人类首次观测到双中子星并合事件被选为头号科学突破。美国《科学》杂志21日公布了其评选出的2017年十大科学突破,人类首次观测到双中子星并合事…