图灵测试是人工智能的标准吗?

21398f493b600d4167f38c9af4a42934.png

来源:赛先生

编者按

科学就是一个可以被证伪的学说。任何一个科学论述,都要能够被实验检验。比如说,要科学地解释定义什么是自我意识,其本质就是设计一个实验。比如观察动物在镜子里看到自己时候的行为,是寻找镜子后面的另一只动物,还是知道镜子里就是自己。通过做类似的实验,我们可以判断,猫、老鼠、猴子等等有没有自我意识。

人工智能领域中,最重要的概念就是智能。但什么样的实验能够定义”智能“这个概念?大家常常利用图灵测试这个实验来定义有没有智能。但这一定义真的合适吗?真的有利于人工智能的发展吗?有没有更好的实验定义?这篇文章深入讨论了这个问题。

——文小刚

王培(美国天普大学计算机与信息科学系)

随着人工智能成为热门话题,“图灵”(Alan M. Turing,1912.6.23~1954.6.7)这个名字也逐渐广为人知。一个常见的说法是把他提出的“图灵测试”作为人工智能的标准或定义,并以此为由称他为“人工智能之父”。我下面要反驳这种说法,理由是:

(1)这个说法不符合人工智能的史实;

(2)把图灵测试作为人工智能的定义是不恰当的;

(3)其实图灵本人并不是这个意思。 

我无意贬低图灵对人工智能的重大贡献,只是试图澄清一些误解,并指出这些误解在当前人工智能讨论中所造成的问题。我不希望这些问题被错误地算在图灵名下。

1图灵和人工智能到底是什么关系?

图灵大概是最早认识到“计算机”除了完成数值计算之外还能从事其它智力活动的人之一,并且是第一个对此进行了系统思考和深入分析的。有证据表明,他早在1941年就开始考虑在计算机上实现“智能”(或者说“思维”,在这个讨论中这两个词差别不大)的可能性了,并在1948年写了以“智能机器”为题的报告,尽管他最广为人知的有关著述是在1950年发表的《计算机器与智能》[1]。

在这篇历史文献中,图灵开宗明义地要大家考虑机器是否能思维的问题。为了避免“思维”一词在解释上的混乱,他主张只要计算机在语言行为(对话)上和人没有明显差别,就应该算是“能思维”或“有智能”了。这就是后来所称的“图灵测试”。他认为可以编制一个“儿童”程序,然后对其进行教育以达到成人的智力水平。图灵自己在1948年曾和朋友合作设计过一个国际象棋程序,但在他1954年去世之前没能把他关于智能机器的设想充分展开。

a79ab1d24f1da462356de34a54049639.png
阿兰·图灵

“人工智能”作为一个研究领域,公认是在1956年夏的达特茅斯会议上形成的。这个只有十来个人参加的会议不但给这个领域取了名,而且涌现了其主要奠基人:麦卡锡、明斯基、纽维尔、司马贺。这四个人,以及他们分别在斯坦福、麻省理工、卡内基梅隆建立的研究中心,主导了这个领域前几十年的研究方向。他们远比图灵更有资格被称为“人工智能之父”,而图灵更适合被称为“先行者”。 

比名号更重要的是:这几位对智能的理解和图灵有重要的差别。他们当中没有一个是以“通过图灵测试”作为自己研究工作的目标的,并且都或明或暗地对这个测试表示过不以为然。在达特茅斯会议的计划书中,人工智能问题被说成让计算机的行为符合人们对智能行为的认识。以此为起点,主流人工智能一直是以“让计算机解决那些人脑能解决的问题”为工作定义和划界标准的,而并不要求系统的具体行为和人不可区分。以计算机围棋为例,“把棋下好”和“把棋下的和人下的一样”是两个不同的研究目标。出于这种考虑,在主流人工智能文献中提到图灵测试时,一般都是只承认其历史价值,而否认其对研究工作的现实指导意义的。就在不久前,世界上最大的人工智能协会AAAI的机关刊物《人工智能杂志》的2016春季号还出了一期专刊来讨论图灵测试的各种替代方案。

以通过图灵测试为目标的对话程序一般称为“chatbot” 。这个词和机器人(robot)一词相近,故常被译作“聊天机器人”,但其实应当译作“聊天程序”,因为它们都是专用软件,而非专用硬件。这类工作在历史上长期被大部分人工智能研究者视为旁门左道或哗众取宠,其中最著名的例子的是魏增鲍姆在1966年编写的“伊莉莎”(ELIZA)。这个程序只凭一些简单的花招就使得很多使用者相信他们是在和一个人对话,以至于后来产生了“伊莉莎效应”这个概念,专指一个计算机系统的使用者和观察者以拟人化的思路解释系统的行为,因此赋予了该系统许多它本来根本不具有的品质。这种现象在对“阿尔法狗”的评论中又一次得到了充分展现。近来,主要拜深度学习所赐,聊天程序的研发终于被接纳成了主流人工智能的一部分,而图灵测试在这个领域中自然是一个恰当的标准。但尽管如此,这个标准也不能推广到人工智能的其它子领域。因此,至今以通过图灵测试为目标的工作仍只占人工智能领域中很小的一部分。

70e5cfec2faf569750cdf2b9d3d4eb1e.png

2图灵测试哪里不对了?

反对图灵测试的意见来自若干不同的方向。

主流人工智能既然是以“解决那些人脑能解决的问题”为目标,自然是要“解题能力”越高越好,而不在乎“解题行为”是否和人一样。如果对某个问题有更适合计算机的解决办法,那为什么还一定要像人脑那样做呢?图灵已经预料到,要通过他的测试,计算机要会装傻和撒谎才行,因为在某些方面(如算数)能力太强就不像人了。《人工智能杂志》专刊所提到的替代图灵测试的主要理由也是它往往鼓励系统采用欺骗手段,而非真正展现其认知能力。 

香农(对,就是创建信息论那位)和麦卡锡在1956年的一篇文章中提出图灵测试的缺点是:“在原则上”它可以通过查一张列出所有问题和相应答案的清单来做到,因此和我们关于思维的直观不符。具有讽刺意味的是,随着计算机硬件的发展,现在的一些“智能系统”的确是按这个“原则”构建的。哲学家塞尔的“中文屋”思想试验也是假定一个计算机可以用这个平淡无奇的办法通过图灵测试,而他以此论证真正的(强)人工智能不可能实现。

如我在《当你谈论人工智能时,到底在谈论什么?》中解释的,“人工智能”固然是要造“像人脑那样工作的计算机”,但关于“在哪方面像人脑”的不同看法已经将研究引向完全不同的方向。图灵测试是要计算机在行为上像人,而主流人工智能是要在解决各种问题的能力上像人甚至超过人。这两种研究都有价值且有相互联系,但并不是一回事。这正是主流人工智能不接受图灵测试的根本原因。

我自己的研究目标既非再现人类行为,也非达到或超越人类问题求解能力,而是让计算机遵循人所体现的信息加工原则。我认为这个原则就是“在知识和资源不足时适应环境”(详见《王培专栏|人工智能:何为“智”?》,而其它具体的“思维规律”都是建立在这个基础上的。根据这个原则,一个智能系统的行为(输出)依赖于它的经验(输入)。由于一个人工智能系统不会有和人类完全相同的经验,它就不会有和人类完全相同的行为,即使其输入-输出关系和人的基本一样。因此,我的系统不是以通过图灵测试为目标的。比如说,它对一个问题的回答取决于系统自身对此问题知道些什么,而不是一个普通人对此问题知道些什么。

3图灵错了吗?

在这个问题上最令人哭笑不得的一点是:图灵从来没有建议过把他的测试作为“思维”或“智能”的定义。

尽管图灵的文章《计算机器与智能》被广泛引用,但很多人可能只看了他开头介绍“模仿游戏”(即后来被称为“图灵测试”)的那一部分。我这么说是因为他的下面一段话很少被提到:

“难道机器不会做某些应该被说成思维但和人所做的很不同的事吗?这是个很有力的反对意见,但我们至少可以说,如果能够成功地玩模仿游戏的机器可以被构造出来,我们无需为这种反对意见而烦恼。”

这段话说的很明白:图灵把通过他的测试作为“能思维”的充分条件,而非充分必要条件(也就是定义)。这就是说和人行为一样必是能思维,但和人行为不同也未必就不算思维。在1952年参加BBC的一个广播节目时,图灵明确表示他没有试图给“思维”下一个定义,而只是想在人脑诸多性质之间“划一条线”,来区分那些智能机器需要具有的和那些不需要具有的[2]。 

既然图灵没有给“思维”或“智能”下定义,而人工智能的领军人物们也没有接受这个测试,那“图灵测试是人工智能的定义”是谁说的呢?这大致是一些对人工智能半懂不懂的人士的贡献,而好莱坞也难逃其咎。一旦这个简单易懂的说法传播开来,大概谁也拿它没有办法了,更不要说图灵英年早逝,没机会反复辟谣了。

综上所述,在主流人工智能历史上,图灵测试从未被接受为标准或定义,而图灵也不是人工智能主流研究规范的奠基人,尽管他的观点的确对很多人产生了不同程度的影响。图灵测试的弊端是“和人的行为完全一样”不应被当作“智能”的必要条件。虽然实际上图灵从来也没有这个意思,他的文章的确给了不少人这种误解。

尽管如此,我仍认为图灵对人工智能做出了巨大的贡献。这体现在下列方面:

  • 他是最早明确指出“思维”和“智能”可能在计算机上实现的人,并且清醒地看出智能机器不会和人在一切方面都相同。比如在《计算机器与智能》中,他认为一个智能机器可能没有腿或眼,这就是说一个靠轮子运动和靠声纳感觉的机器人完全可能有智能。与此相反,至今仍有不少人以为真正实现人工智能的唯一办法是全面地、忠实地复制人的一切。尽管图灵测试把这条线画的离人太近,但总是一个有意义的开端。

  • 在《计算机器与智能》中,他分析并驳斥了9种对思维机器的反对意见。从那时(1950)至今,对人工智能的反对意见层出不穷,但细细看来都不出他的预料,只是具体表述“与时俱进”了而已。尽管图灵当年的反驳没有彻底解决问题,他的预见性仍令人惊叹。就冲这一点,他的文章就没有过时。

  • 他认为我们应当设计一个通用学习系统,并通过教育使其拥有各种具体技能。与此相反,主流人工智能系统的能力仍主要来自于初始设计,即使目前的“机器学习”也仅限于某种特定的学习过程(详见《计算机会有超人的智能吗?》)。如果他没有那么早去世,人工智能可能会有一条不同于达特茅斯诸君所引领的路线。

在我看来,图灵的主要局限是没有看到躯体和经验对概念和信念的重要影响。一个没有腿和眼的机器人完全可以有智能,但是不会有和人类完全相同的思想,因此也就不会有和人类完全相同的行为,即使我们只关注其语言行为也是如此。如果这个系统的智力足够高,它的确可能靠对人类的知识通过图灵测试(所以这个测试可以作为智能的充分条件),但这不应该是我们说它有智能的唯一依据。

4和我们有什么关系吗?

以上分析的目的不仅仅是澄清历史事实,更是要据此评说目前的状况。

把图灵测试作为人工智能的标准或定义直接导致了对这一领域成果评价的片面化、肤浅化、娱乐化。既然一个计算机系统不可能在所有方面同等水平地和人相像,那么聚焦于其外在行为的似人程度就意味着忽略其内在机制的似人程度。在最近的新闻和讨论中不难发现这一倾向的种种表现:

  •  以聊天程序的蒙人水平来评价其智力,

  • 以人的智商标准来评估计算机智力发展水平,

  • 以高考成绩来衡量计算机智能,

  • 以在作曲或绘画上“以假乱真”的本事来体现人工智能的创造力,

  • 以似人的“面部表情”或“肢体动作”来表现机器的“感情”。

这些工作不能说毫无意义,但仍是主要靠伊莉莎效应来赢得承认,即靠观众想“只有聪明人能这么做,现在这个计算机做到了,所以它一定聪明”,而完全忽略这些行为在计算机中的产生机制,尤其是它们和系统设计、以往经历、当前情境等因素的关系。比如说,尽管有理由认为一个人工智能系统可能有情感机制和审美能力(详情以后再说),那也不意味着它注定会“美我们之所美”、“爱我们之所爱”。贾府上的焦大是不爱林妹妹的,但这不说明他没有爱憎。实际上如果他表现出爱她,那反而不是真感情了。既然贾宝玉的情感和审美标准不能推广到其他人,有什么理由认为人类的情感和审美标准可以推广到其他智能物种呢?

一个领域的成果评价标准如果是不合适的,后果会很严重。不但研发工作会被误导,公众的期望也会落空,而且会错过真正有价值的方向。在人工智能领域中,这仍然是个大问题。

参考文献

[1] Alan Turing, Computing Machinery and Intelligence, Mind 49: 433-460, 1950

[2] Alan Turing, Richard Braithwaite, Geoffrey Jefferson, Max Newman, Can Automatic Calculating Machines Be Said To Think? A broadcast discussion on BBC Third Programme, January 14, 1952

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

cd1d52a49512bbed240980979d17e351.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482008.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科学家在类脑芯片上实现类似LSTM的功能,能效高1000倍

来源:机器学习研究组订阅格拉茨技术大学的计算机科学家在 Nature 子刊上发表的一篇论文表明,他们找到了一种在神经形态芯片上模拟 LSTM 的方案,可以让类脑神经形态芯片上的 AI 算法能效提高约 1000 倍。随着智能手机的普及,手机游…

人类为什么活得这么累?Nature论文解开谜底:人总是选择做加法来解决问题

来源:【iNature】想象一座由乐高积木制成的桥。一侧有三个支撑件,另外两个。你将如何稳定这座桥?一项新的研究表明,大多数人会添加一块,这样每边都有三个支撑。但是为什么不移除一块,让每一侧都有两个支撑呢…

研究速递:使用AI应对腐败的潜力和风险

来源:Peter东腐败是当今社会面临的一大顽疾,近年来,已有一些尝试,通过人工智能的方法应对腐败。自然机器智能的观点论文:“使用人工智能来对抗腐败的前景和危险”,指出相比自上而下的使用AI应对腐败&#x…

Python中出现:RunTimeError:implement_array_function method already has a docstring.异常解决

QUESTON:Python中出现:RunTimeError:implement_array_function method already has a docstring.异常解决 ANSWER: 在网上查了一上午,发现写的在我这都没有解决问题,于是我费尽心机自己动手解决。 我在cmd命令行将本机上的numpy卸载后,重新…

谷歌背后的数学

来源:卢昌海作者:赛先生1引言在如今这个互联网时代, 有一家公司家喻户晓——它自 1998 年问世以来, 在极短的时间内就声誉鹊起, 不仅超越了所有竞争对手, 而且彻底改观了整个互联网的生态。这家公司就是当今…

梅宏院士:如何构造人工群体智能?| 智源大会特邀报告回顾

来源:智源社区导读:在自然界当中,群体智能广泛存在,诸如蜂群、蚁群以及鱼群的聚集。而从宏观上说,人类社会的不断发展和演化也是一种群体智能现象,绝大多数文明成果都是人类个体在长期群体化、社会化的生产…

Maven:构建web工程出现Failed to execute goal org.apache:maven-archetype-plugin:3.1.1:generate (default-cli)

QUESTION:Maven:构建web工程出现Failed to execute goal org.apache:maven-archetype-plugin:3.1.1:generate (default-cli) ANSWER: 在无意间删除了一个工程后,重新构建web工程时出现该问题,一时间煞费苦心,看了好多都是说jre路径问题&…

菲尔兹奖得主丘成桐院士:数学之美与应用

来源:微信公众号:全景式数学丘成桐院士自然界的美是研究基础数学的灵感来源,几何学有着非常漂亮的理论和重要的应用。丘成桐院士带领学生发展的计算共形几何学,在现代工程、医学图像等中发挥着巨大的作用。从数学的角度&#xff0…

Maven:解决jar包冲突和企业开发常用编写

QUESTION:Maven:解决jar包冲突和企业开发常用编写 目录 QUESTION:Maven:解决jar包冲突和企业开发常用编写 ANSWER: 一:Maven的作用 二:解决jar包冲突: 三:版本锁定: ANSWER: 一&#xff…

SSM:Maven整合ssm时的步骤

QUESTION:SSM:Maven整合ssm时的步骤 目录 QUESTION:SSM:Maven整合ssm时的步骤 ANSWER: ANSWER: 工程结构&#xff1a; 1.在新建的web工程中&#xff0c;pom.xml文件中导入以下坐标&#xff1a; <properties><project.build.sourceEncoding>UTF-8</project.bu…

日研究称小行星样本含多种氨基酸,系首次在地球外确认氨基酸存在

来源&#xff1a;彭拜新闻当地时间6月6日&#xff0c;有日本政府相关人士表示&#xff0c;日本宇宙航空研究开发机构&#xff08;JAXA&#xff09;在“隼鸟2号”小行星探测器带回的岩石样本中&#xff0c;发现了超过20种氨基酸。这是首次在地球以外确认氨基酸的存在。是小行星“…

Maven:私服Nexus的安装

QUESTION:Maven:私服Nexus的安装 目录 QUESTION:Maven:私服Nexus的安装 ANWSER: 1.1 简介&#xff1a; 1.2 下载&#xff1a; 1.3 配置nexus 1.4 nexus测试 1.5 安装并启动nexus 1.6 nexus启动失败处理 ANWSER: 1.1 简介&#xff1a; Nexus 是Maven仓库管理器&#x…

译科技|人工智能进化——那些不得不面对的局限性

来源&#xff1a;The Next Web作者&#xff1a;Charles Simon翻译&#xff1a;王忠伟审校&#xff1a;黄玉叶"认清现实&#xff1a;AI虽不完美&#xff0c;但它的本事令人印象深刻。"从医学成像、语言翻译到面部识别、自动驾驶汽车&#xff0c;人工智能的案例无处不在…

Maven:导入Oracle的jar包时出现错误

QUESTION:Maven&#xff1a;导入Oracle的jar包时出现错误 目录 QUESTION:Maven&#xff1a;导入Oracle的jar包时出现错误 ANSWER: 一&#xff1a;问题分析 二&#xff1a;解决方案 ANSWER: 一&#xff1a;问题分析 一开始我在导入oracle时以为是编译器的原因&#xff0c;于…

“数字孪生”十问:从概念到应用

来源&#xff1a;北京航空航天大学 自动化科学与电气工程学院 数字孪生研究组本文对以下十个问题进行了深入分析与思考&#xff0c;以期抛砖引玉&#xff0c;为研究者更好理解数字孪生&#xff0c;为决策者理性和正确对待数字孪生&#xff0c;为实践者更好落地应用数字孪生提供…

图灵奖得主 Adi Shamir最新理论,揭秘对抗性样本奥秘 | 智源大会特邀报告回顾...

来源&#xff1a; 智源社区导读&#xff1a;为什么模型会将「猫」识别成「牛油果酱」&#xff0c;将「猪」识别成「飞机」&#xff1f;要回答这个问题&#xff0c;就涉及到对抗性样本&#xff08;Adversarial examples&#xff09;。对抗性样本指在原始样本添加一些人眼无法察觉…

因果性与因果模型 | 中国人民大学哲学与认知科学明德讲坛

来源&#xff1a;中国人民大学哲学与认知科学明德讲坛第25期《因果性与因果模型》文字稿主持人&#xff1a;袁园 嘉宾&#xff1a;张双南、李伟、朱锐 主办&#xff1a;中国人民大学哲学与认知科学跨学科交叉平台、服务器艺术 协办&#xff1a;神经现实 封面&#xff1a;Dan …

惊人的发现:衰老是由眼睛驱动的!

来源&#xff1a;生物通晚上盯着电脑和手机屏幕&#xff0c;暴露在光污染中&#xff0c;对生物钟非常不利。它破坏了对眼睛的保护&#xff0c;可能会造成视力之外的后果&#xff0c;损害身体的其他部位和大脑&#xff01;Pankaj Kapahi研究人员发现果蝇的饮食、昼夜节律、眼睛健…

趋势丨关于未来世界的50个超级趋势

来源&#xff1a;摘自中信出版集团书籍《逃不开的大势》作者&#xff1a;拉斯特维德在国内疫情、俄乌危机、全球通胀以及美联储加息缩表预期等影响下&#xff0c;近期市场仍然处于偏负面的状态&#xff0c;以往市场偏爱的互联网、医疗、白酒等行业跌幅较大&#xff0c;使得追高…

模块化的机器学习系统就够了吗?Bengio师生告诉你答案

来源&#xff1a;机器学习研究组订阅Bengio 等研究者刚「出炉」的预印本论文&#xff0c;探讨了机器学习系统的一个重要方向问题。深度学习研究者从神经科学和认知科学中汲取灵感&#xff0c;从隐藏单元、输入方式&#xff0c;到网络连接、网络架构的设计等&#xff0c;许多突破…