AI 真的能够理解人类语言吗?

0ffe4eb02540924b93cf568d661b7e93.png

来源:CSDN(ID:CSDNnews)

作者:Melanie Mitchell

译者:弯月

2011年,IBM 的人工智能系统沃森参加综艺节目《危险边缘》,并获得了冠军,当时他们宣称:“沃森能够理解自然语言的所有歧义和复杂性。”然而,之后沃森在大胆进军医疗保健领域时,却遭遇惨败,这说明人工智能对语言的理解与人类并不相同。

长期以来,理解自然语言一直是人工智能研究的主要目标。最初,研究人员曾尝试通过手工编写的代码,帮助计算机理解新闻故事、小说或人类撰写的其他文档。然而,正如沃森的经历,这种方法都是徒劳的,我们不可能把理解文本所需的所有不成文的事实、规则和假设都写进代码里。

3041c5d24b9dc49ab418ceb0d9b86397.png

图源:CSDN下载自视觉中国

像人类一样进行书本学习的AI

最近,人工智能领域又涌现出一种新型的范式:让机器学习通过大量书面文本学习预测单词的方式,自行理解语言。这就是研究人员所说的语言模型。这类模型基于大型神经网络,比如 OpenAI的GPT-3,并生成了令人难以置信的散文(和诗歌!),而且还可以推理复杂的语言逻辑。

GPT-3通过来自数千个网站、书籍和百科全书的文本的训练,它是否超越了沃森的表现呢?它真的能够理解自己生成的语言及其逻辑吗?这个话题在AI研究领域一直富有争议。这类探讨曾是哲学领域的话题,但在过去的十年中,人工智能已经突破学术领域,并闯入了现实世界,但由于缺乏对现实世界的理解,它们可能会带来灾难性的后果。在一项研究中,有人发现了IBM的沃森“提出不安全和不正确的治疗建议”的多个例子。还有一项研究表明,Google的机器翻译系统为非英语患者翻译医疗说明时出现了重大错误。

AI学会了吗?

在实践中,我们如何才能确认机器学习是否真的能够理解人类的语言呢?1950 年,计算先驱艾伦·图灵曾通过著名的“模仿游戏”来回答这个问题,如今我们称其为图灵测试。具体做法是,一台机器和一个人,看不见彼此,二者竞相仅通过对话的方式来说服人类法官自己才是人类。如果该法官无法分辨哪个是人类,那么,图灵可以断言这台机器确实拥有思考的能力,也就是说能够理解人类的语言。

然而不幸的是,图灵低估了人类喜欢被机器愚弄的倾向性。20世纪60年代,JosephWeizenbaum发明了一个名为Eliza的心理治疗师,这个小程序骗过了很多人,他们相信自己正在与一个人类交谈,即便他们知道对面只是一台机器。

训练规模越来越大

在2012年的一篇论文中,计算机科学家Hector Levesque、Ernest Davis和 Leora Morgenstern提出了一个更客观的测试,他们称之为“威诺格拉德模式挑战”(WinogradSchema Challenge,WSC)。该测试已被AI语言社区采用,作为评估机器理解的一种方式,也许是最好的方式,尽管我们可以看到它并不完美。这种方式有一个“威诺格拉德模式”(WinogradSchema),其名称源于斯坦福大学计算机科学家特里·威诺格拉德。该模式由一对句子组成,两个句子仅相差一个词,而且两个句子紧紧相接。下面是两个例子:

句子1:我把瓶子里的水倒进杯子里,一直到满为止。

问题:什么是满的,瓶子还是杯子?

句子2:我把瓶子里的水倒进杯子里,一直到空为止。

问题:什么是空的,瓶子还是杯子?

句子1:小明跟叔叔打网球输了,尽管他年长了30岁。

问题:谁更年长,小明还是小明的叔叔?

句子2:小明跟叔叔打网球输了,尽管他年轻了30岁。

问题:谁更年长,小明还是小明的叔叔?

在上述句子中,一字之差,所指的事物或人就完全不同。正确地回答这些问题需要一些常识性的判断。威诺格拉德模式正是为了测试这种理解能力而设计的,这种方式弥补了图灵测试的脆弱性:不可靠的人类判断,以及聊天机器人采用的技巧。特别是,作者设计了数百个针对网络搜索的模式:机器无法通过网络搜索来正确回答的问题。

这些模式是2016年举办的一场比赛的主题,最后就连获胜的程序也只回答对了 58%的句子,比盲猜(50%)略好一点。人工智能研究员Oren Etzioni打趣道:“AI连一句话中的it指的是什么都无法确定,居然还有人指望它统治整个世界?”

然而,由于大型神经网络语言模型的涌现,AI程序解决威诺格拉德模式的能力也迅速得到了提高。2020年,OpenAI的一篇论文称,在威诺格拉德模式的测试中,GPT-3正确回答了90%的句子。还有一些语言模型在经过专门的训练之后表现更好。目前,神经网络语言模型在一组特定的威诺格拉德模式测试上,达到了约97%的准确率,这些模式是一个名叫SuperGLUE的人工智能理解语言竞赛中一部分。这个准确率几乎与人类的表现持平。这是否意味着神经网络语言模型已经达到了人类的理解水平?

不一定。尽管这些语言模型的创作者尽了最大努力,但这些威诺格拉德模式并非不可通过网络获取答案。这些问题就像许多其他当前的AI语言理解测试一样,有时也有捷径可以走,即便神经网络不理解句子的真正含义,也可以给出正确答案。举个例子:

  • 跑车比卡车跑的更快,是因为它的速度更快。

  • 跑车比卡车跑的更快,是因为它的速度更慢。

经过大型语料库训练的语言模型掌握了“跑车”与“快”以及“卡车”与“慢”之间的联系,因此可以仅凭这些相关性(而不是真正理解句子的含义)来给出正确的答案。事实证明,SuperGLUE竞赛中的许多威诺格拉德模式都可以通过这类的统计相关性给出答案。

艾伦人工智能研究所的研究人员并没有放弃威诺格拉德模式,并决定努力解决这些问题。2019年,他们创建了WinoGrande,这是一组更大的威诺格拉德模式,其中包含44,000个句子。为了获得如此多的例子,研究人员通过亚马逊的 MechanicalTurk(一个流行的众包工作平台),让每个(人类)工人写出几对句子,并通过一些限制确保这些句子包含不同的主题,尽管最后收集到的每一对句子相差可能不止一个单词。

接着,研究人员通过一些简单的AI测试,删除了可通过统计捷径轻松回答的句子。正如预期的那样,与原始的威诺格拉德模式相比,WinoGrande中的句子向机器学习发起了更困难的挑战。虽然在面对WinoGrande 时,人类的得分仍然很高,但神经网络语言模型的得分却低了很多。这项新挑战似乎恢复了威诺格拉德模式作为常识测试的地位,只要句子本身经过仔细筛选,确保无法通过网络搜索得到答案即可。

然而,另一个惊喜还在后面。在 WinoGrande 发布后的近两年里,神经网络语言模型的规模越来越大,而且随着规模的增大,似乎它们在这项新挑战中的得分也越来越高。目前,最先进的神经网络语言模型已经经过了TB级文本上训练,然后又在数千个WinoGrande示例上进行了进一步的训练,可以达到将近 90% 的正确率,而人类的正确率约为94%。这种性能提升几乎完全来源于神经网络语言模型及其训练数据规模的增加。

这些日益增大的神经网络模型是否达到了人类的常识性理解水平?不太可能。WinoGrande 的结果有一些严重的问题。例如,由于这些句子的编写依赖于亚马逊Mechanical Turk 上的人工,因此写作的质量和连贯性参差不齐。此外,利用简单的人工智能方法剔除可通过网络搜索结果的句子,但这些人工智能方法可能过于简单,无法发现大型神经网络有可能使用的统计捷径,而且这些人工智能只能处理单个句子,因此导致一些成对的句子只剩下一句。一项后续研究表明,如果要求神经网络语言模型仅测试成对的句子,并且要求两个句子都回答正确,则它们的准确性远低于人类,因此前面的 90% 根本不能说明什么。

AI理解人类语言了吗?

那么,威诺格拉德模式对我们来说有何意义呢?我们可以从中得到一个重要的教训:我们很难通过AI系统在某项挑战中的表现判断它们是否真的能够理解人类的语言(或其他数据)。如今我们知道,神经网络经常使用统计捷径(而不是展示类似于人类的理解能力)在威诺格拉德模式以及其他流行的“通用语言理解”基准上展示出高水平。

在我看来,问题的关键在于,要想理解人类的语言就需要理解这个世界,而只能接触到语言的机器无法获得这样的理解能力。我们来思考一下“跑车超过了卡车,是因为它的速度更慢”,这句话是什么意思。首先你需要知道“跑车”和“卡车”是什么,而且需要知道车辆可以互相“超车”,从更基本的层面来看,车辆是存在于世界上、能够与之互动的物体,且由人类驾驶。

对于人类来说,这些知识不过是基本常识,但机器内部没有这样的常识库,也不可能明确地编写到任何语言模型的训练文本中。一些认知科学家认为,人类学习和理解语言需要依赖语言的核心知识,即掌握空间、时间以及许多关于这个世界的其他基本因素。如果想让机器像人类一样掌握语言,则我们需要赋予它们人类与生俱来的一些基本法则。为了评估机器对语言的理解,我们首先应该它们对这些法则的掌握情况,人们称之为“婴儿的元物理学”。

与威诺格拉德模式和GPT-3等人工智能系统相比,训练和评估婴儿级别的智能机器似乎是一个巨大的倒退。但是,我们的目标是理解语言,而这可能是机器能够真正理解句子中的“it”所指,以及理解“it”所包含的一切的唯一途径。

参考链接:

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

21c153d70f7c56eadacf4a224da9a376.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482935.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络学习笔记-1.1.5-分层结构、协议、接口、服务

计算机网络-2019 王道考研 计算机网络-1.1.5-分层结构、协议、接口、服务 文章目录5-分层结构、协议、接口、服务5.1分层结构5.1.1为什么要分层?5.2怎么分层呢?--》论千层饼的做法?5.2.1正式认识下,我叫分层结构,协议接…

操作系统学习笔记-2.1.1.进程的定义、组成、组织方式、特征

操作系统学习笔记-2019 王道考研 操作系统-2.1.1.进程的定义、组成、组织方式、特征 文章目录2.1.1.进程的定义、组成、组织方式、特征1.1知识概览1.2进程的定义1.3进程的组成1.4进程的组织1.5进程的特征1.6小结2.1.1.进程的定义、组成、组织方式、特征 1.1知识概览 1.2进程的…

向人类再进一步|MIT×UMich探索可以理解物体空间关系的人工智能

研究人员开发的框架可以根据物体空间关系的文本描述生成场景图像。来源:AI科技评论作者:莓酊编辑:青暮人类在描述场景时,经常描述物体之间的空间关系。生物视觉识别涉及自上而下通路和自下而上通路的交互,而深度神经网…

​人工智能和机器学习中数据集的 3 个大问题

来源:ScienceAI编辑:绿萝数据集为 AI 模型提供燃料,例如汽油(或电力)为汽车提供燃料。无论他们的任务是生成文本、识别对象还是预测公司的股价,人工智能系统都通过筛选无数示例来识别数据中的模式来「学习」…

操作系统学习笔记-2.1. 2进程的状态与转换

操作系统学习笔记-2019 王道考研 操作系统-2.1. 2进程的状态与转换 文章目录2进程的状态与转换2.1知识概览2.2进程的状态-三种基本状态2.3进程的状态-另外两种状态2.4进程状态的转换2.5思维导图2进程的状态与转换 2.1知识概览 2.2进程的状态-三种基本状态 2.3进程的状态-另外两…

热力学第二定律中的悖论 | 集智百科

来源 :集智百科目录一、起源二、时间之箭三、动力系统四、波动定理五、大爆炸六、编者推荐七、百科项目志愿者招募洛斯密特悖论,也被称为可逆性悖论,不可逆性悖论,或者说是一种反对意见,它认为不可能从时间对称的动力学中推导出一…

操作系统学习笔记-2.1.3进程控制

操作系统学习笔记-2019 王道考研 操作系统-2.1.3进程控制 文章目录3.进程控制3.1知识概览3.2 基本概念3.2.1什么是进程控制?3.2.2如何实现进程控制?3.3进程控制相关的原语3.4思维导图3.进程控制 3.1知识概览 3.2 基本概念 3.2.1什么是进程控制&#xf…

消息队列---消息模型及使用场景

消息队列 消息对列是一个存放消息的容器,当我们需要消息的时候就从消息队列中取出消息使用。消息队列是分布式系统中重要的组件,使用消息队列的目的是为了通过异步处理提高系统的性能和削峰值,降低系统的耦合性。目前使用较多的消息队列有Act…

谷歌机器智能大牛:AI模型要真正理解人类语言,关键是「序列学习」

来源:新智元编辑:David如果计算机给了你所有正确的答案,是否意味着它和你一样了解世界?这是人工智能科学家几十年来一直争论不休的谜题。随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步,关于理解、意识和真…

操作系统学习笔记-2.1.4进程通信

操作系统学习笔记-2019 王道考研 操作系统-2.1.4进程通信 文章目录4进程通信4.1知识总览4.2前置知识:什么是进程通信?4.3共享存储4.4 管道通信4.5消息传递4.6小结4进程通信 4.1知识总览 4.2前置知识:什么是进程通信? 4.3共享存储…

滴水课后作业(1-5)

滴水2015-01-12 1、231 成立吗?说明理由。 解题:上面式子由 3个符号组成,那么起码得用3进制以上的进制表示 三进制:2(0),3(1),1(2)   012不成立…

李德毅院士《探索新一代人工智能产业发展》

来源:AI城市智库中国工程院院士、CAAI名誉理事长、主线科技首席科学家李德毅作为大会嘉宾登台发表重磅演讲:《探索新一代人工智能产业发展》,就新一代人工智能的发展历史、产业现状、突破核心以及智能时代的中国方案发表了精彩观点。以下为李…

操作系统学习笔记-2.1.5线程概念和多线程模型

操作系统学习笔记-2019 王道考研 操作系统-2.1.5线程概念和多线程模型 文章目录5线程概念和多线程模型5.1知识概览5.2 什么是线程?为什么要引入线程?5.3引入线程及之后,有什么变化?5.4线程的属性5.5线程的实现方式5.6多线程模型5.…

函数式编程让你忘记设计模式

本文是一篇《Java 8实战》的阅读笔记,阅读大约需要5分钟。 有点标题党,但是这确实是我最近使用Lambda表达式的感受。设计模式是过去的一些好的经验和套路的总结,但是好的语言特性可以让开发者不去考虑这些设计模式。面向对象常见的设计模式有…

25年,100亿美元!人类「第二只眼」韦伯望远镜升空,寻找宇宙开天辟地那束光...

来源:新智元编辑:桃子 小咸鱼昨晚,历时25年研发,100亿美金打造的詹姆斯韦伯太空望远镜终于升空!它将成为人类的「第二只眼」,奔向离地球150万公里外的地方,不仅为了仰望星空,更是为了…

计算机网络学习笔记-1.2.2OSI参考模型(1)

计算机网络-2019 王道考研 计算机网络-1.2.2OSI参考模型(1) 文章目录2.OSI参考模型(1)2.1OSI参考模型(1)2.2ISO/OSI参考模型2.3ISO/OSI参考模型解释通信过程2.OSI参考模型(1) 2.1OS…

计算机网络学习笔记-1.2.3OSI参考模型(2)

计算机网络-[2019 王道考研 计算机网络-1.2.3OSI参考模型(2)(https://www.bilibili.com/video/av70228743?t6&p7) 文章目录3.OSI参考模型(2)3.1应用层3.2表示层3.3会话层3.4传输层3.5网络层3.6数据链路层3.7物理层3.8思维导图…

科技城|从专利布局看人工智能领域全球竞争与中国面临的挑战

来源:澎湃新闻作者:杜灵君(来自中国电子信息产业发展研究院)近年来,随着人工智能技术的突破,人工智能产业爆发式增长。全球各个国家为了抢占产业发展和技术变革主导权,争相出台政策、资本、核心…

计算机网络学习笔记-1.2.4TCP,IP参考模型和五层参考模型

计算机网络-2019 王道考研 计算机网络-1.2.4TCP,IP参考模型和五层参考模型 文章目录4.TCP,IP参考模型和五层参考模型4.1OSI参考模型与TCP/IP参考模型4.2OSI参考模型与TCP/IP参考模型的相同点4.3OSI参考模型与TCP/IP参考模型的不同点4.4五层参考协议4.4五…

从城市大脑到世界数字大脑 构建人类协同发展的超级智能平台

作者:远望智库数字大脑研究院院长,中国科学院虚拟经济与数据科学研究中心研究组成员,南京财经大学教授 刘锋(本文2021年12月发表于中国建设信息化)一.世界数字大脑产生的背景世界数字大脑与城市大脑的产生…