谷歌机器智能大牛:AI模型要真正理解人类语言,关键是「序列学习」

8d31cbefa4085d271c54d68fc509dd6b.png

来源:新智元

编辑:David

如果计算机给了你所有正确的答案,是否意味着它和你一样了解世界?

这是人工智能科学家几十年来一直争论不休的谜题。随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步,关于理解、意识和真正智能的讨论重新成为科学家们关注的热点。

许多科学家认为,深度学习模型只是大型统计机器,以复杂的方式将输入映射到输出。深度神经网络可能能够生成冗长的连贯文本,但并不能像人类那样理解抽象和具体的概念。

也有人不同意这种观点。

e254762c28e9e701ccb2779fbbfde05a.png

比如Google Research 的人工智能科学家 Blaise Aguera y Arcas 认为,大型语言模型可以教会我们很多东西,「比如自然语言、理解力、智力、社会性和人格。」

大型语言模型厉害在哪?

由于几个因素的共同影响,大型语言模型近年来越来越受欢迎:

1-海量数据:有大量的在线文本,例如维基百科、新闻网站和社交媒体,可用于训练语言任务的深度学习模型。

2-大量的算力资源:大型语言模型包含数千亿个参数,需要昂贵的计算资源进行训练。随着谷歌、微软和 Facebook 等公司已经在深度学习和大语言模型上投入数十亿美元,用于该领域的研发。

3-深度学习算法的进步:Transformer 是一种于 2017 年推出的深度学习架构,一直是推动自然语言处理和生成 (NLP/NLG)领域进步的核心动力。

163197e280513ba8712f02e60ee2db32.png

Transformer 的一大优势是可以通过无监督学习对非常多的未标记文本语料库进行训练。

基本上,Transformer 所做的是,将一串字母(或其他类型的数据)作为输入,并预测数据序列中的下一个元素。

它可能在问题后接着给出答案、标题后接着给出文章,或者在用户聊天、对话中给出提示。

众所周知,循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 是 Transformer 的前身,但它们在保持长序列的连贯性方面的表现非常糟糕。

但是,基于 Transformer 的语言模型(例如 GPT-3)在长输出中表现出令人印象深刻的高性能,而且不太容易出现其他类型的深度学习架构所犯的逻辑错误。

8d5123562a9de32b58103ecbc9e638ff.png

Aguera y Arcas 通过与 LaMDA(一款谷歌 Meena 聊天机器人的改进版本)的对话探索了大型语言模型的潜力。

各种例子表明,LaMDA 似乎处理抽象主题,例如社会关系和需要直观了解世界如何运作的问题。

例如,如果你告诉它「我把保龄球掉在了一个瓶子上,它破了」,模型在随后的交流中会知道,这句话是说「保龄球打破了瓶子」。语言模型会将“it”与短语中的第二个名词相关联。

59916cf0104ab3041716fb7cc663dfe1.png

但随后 Aguera y Arcas 对句子进行了微妙的更改:「我把小提琴掉在保龄球上,它坏了」,这一次,LaMDA 模型则将“它”与小提琴联系在一起,和保龄球相比,小提琴更轻、更脆弱。

更多实例表明,深度学习模型可以参与涉及想象的对话,比如它「最喜欢的岛屿是什么」,即使它根本没有旅行过,没有上过任何岛屿。这就引出了下一个问题:

AI模型需要感官体验吗?

b408e7c690193cf9b02fd0b6340516c9.png

在发表在Medium上的这篇长文中,Aguera y Arcas还驳斥了一些反对在大型语言模型中理解的关键论点。

其中之一就是「模型需要具体化」。

如果一个AI系统没有实体存在,也不能像人类一样在多模态系统中感知世界,那么它对人类语言的理解是不完整的。

早在孩子学会说话之前,他们就已经掌握了复杂的感知技能。他们会检测人、脸、表情和物体。他们学习空间、时间和直觉物理学,学会触摸和感受物体、闻、听,并在不同的感官输入之间建立联系。

在学会说话之前,他们就可以思考另一个人或动物的经历。而语言正是建立在我们所有这些与生俱来的知识和丰富的感官体验之上。

但Aguera y Arcas 认为,「因为学习对于大脑的工作非常重要,所以我们可以在广泛的范围内学会使用我们需要的任何东西。我们的感官也是如此。」而在这个过程中,「真实感」并不是必须的要素。

他认为,虽然 LaMDA 既没有鼻子,也没有先验最喜欢的气味,但它确实有自己丰富的联想,就像盲人海伦·凯勒展现出的颜色感一样,这种感觉可以基于语言,根据他人的经验得到。

大型语言模型的关键:序列学习

在文中,Aguera y Arcas 认为序列学习是与大大脑动物(尤其是人类)相关的所有复杂能力的关键,包括推理、社会学习、心理理论和意识。

「复杂的序列学习可能是解开所有其他问题的关键。这可以我们在大型语言模型中看到的令人惊讶的能力——这些模型只不过是复杂的序列学习者。」

而注意力已被证明是在神经网络中实现复杂序列学习的关键机制——正如介绍 Transformer 模型的论文标题所暗示的那样,「Attention is all you need」

0d00cb72ff6d9d706f02a37b58f2d79f.png

这是一个有趣的论点,因为序列学习实际上是具有高阶大脑的生物体的迷人能力之一。这一点在人类身上最为明显,我们可以学习可以产生长期回报的超长的动作序列。

他对大型语言模型中的序列学习的观点也是正确的。这些神经网络的核心是将一个序列映射到另一个序列,网络越大,可以读取和生成的序列越长。

Transformers 背后的关键创新是注意力机制,它帮助模型专注于其输入和输出序列中最重要的部分。这些注意力机制帮助 Transformer 处理非常大的序列,并且比它们的前辈需要更少的内存。

反方观点

不过,对于这个问题,也有人持不同的立场。

圣达菲研究所教授梅兰妮·米切尔 (Melanie Mitchell) 就在 Twitter 上发帖,对Aguera y Arcas 的观点进行了很有意思的反驳。

325c7d2ec32429c5af0bd4a4ec222e0a.png

虽然 Mitchell 同意机器有朝一日可以理解语言,但目前的深度学习模型,如 LaMDA 和 GPT-3还远未达到这个水平。

最近,她在 QuantaMagazine 上写了一篇文章,探讨了衡量人工智能理解的挑战。

ea6126ccca9cd5b6554358b98a7bd456.png

「在我看来,问题的关键在于理解语言。需要理解世界,而只接触语言的机器无法获得这样的理解。」米切尔写道。

米切尔认为,当人类处理语言时,会使用大量没有明确记录在文本中的知识。因此,如果不具备这种基础知识,AI就无法理解我们的语言,试图仅通过文本来理解语言是不可能真正成功的。

米切尔还认为,与 Aguera y Arcas 的论点相反,海伦·凯勒的例子恰恰证明,感官的实际体验对语言理解很重要。

f74c23f326c75f6fe41cf7df677a42af.png

「在我看来,海伦·凯勒的例子恰恰显示了她对颜色的理解是如何具体化的。她将颜色概念映射到了气味、触觉、温度等概念上。」米切尔写道。

至于注意力,米切尔表示,Aguera y Acras 的文章中提到的神经网络中的「注意力」与我们所了解的人类认知中的注意力有很大区别。

但 Mitchell 也表示, Aguera y Acras 的文章是「发人深省」的,尤其是现在,谷歌、微软这样的公司越来越多地将大型语言模型部署在我们的日常生活中,更显出这个问题的重要性。

参考资料:

https://thenextweb.com/news/ai-understand-what-we-are-saying-scientists-divided-syndication

https://bdtechtalks.com/2020/02/03/google-meena-chatbot-ai-language-model/

https://medium.com/@blaisea/do-large-language-models-understand-us-6f881d6d8e75

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

d9575c0d3674340cfbd6ffe66fc91469.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482923.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

操作系统学习笔记-2.1.4进程通信

操作系统学习笔记-2019 王道考研 操作系统-2.1.4进程通信 文章目录4进程通信4.1知识总览4.2前置知识:什么是进程通信?4.3共享存储4.4 管道通信4.5消息传递4.6小结4进程通信 4.1知识总览 4.2前置知识:什么是进程通信? 4.3共享存储…

滴水课后作业(1-5)

滴水2015-01-12 1、231 成立吗?说明理由。 解题:上面式子由 3个符号组成,那么起码得用3进制以上的进制表示 三进制:2(0),3(1),1(2)   012不成立…

李德毅院士《探索新一代人工智能产业发展》

来源:AI城市智库中国工程院院士、CAAI名誉理事长、主线科技首席科学家李德毅作为大会嘉宾登台发表重磅演讲:《探索新一代人工智能产业发展》,就新一代人工智能的发展历史、产业现状、突破核心以及智能时代的中国方案发表了精彩观点。以下为李…

操作系统学习笔记-2.1.5线程概念和多线程模型

操作系统学习笔记-2019 王道考研 操作系统-2.1.5线程概念和多线程模型 文章目录5线程概念和多线程模型5.1知识概览5.2 什么是线程?为什么要引入线程?5.3引入线程及之后,有什么变化?5.4线程的属性5.5线程的实现方式5.6多线程模型5.…

函数式编程让你忘记设计模式

本文是一篇《Java 8实战》的阅读笔记,阅读大约需要5分钟。 有点标题党,但是这确实是我最近使用Lambda表达式的感受。设计模式是过去的一些好的经验和套路的总结,但是好的语言特性可以让开发者不去考虑这些设计模式。面向对象常见的设计模式有…

25年,100亿美元!人类「第二只眼」韦伯望远镜升空,寻找宇宙开天辟地那束光...

来源:新智元编辑:桃子 小咸鱼昨晚,历时25年研发,100亿美金打造的詹姆斯韦伯太空望远镜终于升空!它将成为人类的「第二只眼」,奔向离地球150万公里外的地方,不仅为了仰望星空,更是为了…

计算机网络学习笔记-1.2.2OSI参考模型(1)

计算机网络-2019 王道考研 计算机网络-1.2.2OSI参考模型(1) 文章目录2.OSI参考模型(1)2.1OSI参考模型(1)2.2ISO/OSI参考模型2.3ISO/OSI参考模型解释通信过程2.OSI参考模型(1) 2.1OS…

计算机网络学习笔记-1.2.3OSI参考模型(2)

计算机网络-[2019 王道考研 计算机网络-1.2.3OSI参考模型(2)(https://www.bilibili.com/video/av70228743?t6&p7) 文章目录3.OSI参考模型(2)3.1应用层3.2表示层3.3会话层3.4传输层3.5网络层3.6数据链路层3.7物理层3.8思维导图…

科技城|从专利布局看人工智能领域全球竞争与中国面临的挑战

来源:澎湃新闻作者:杜灵君(来自中国电子信息产业发展研究院)近年来,随着人工智能技术的突破,人工智能产业爆发式增长。全球各个国家为了抢占产业发展和技术变革主导权,争相出台政策、资本、核心…

计算机网络学习笔记-1.2.4TCP,IP参考模型和五层参考模型

计算机网络-2019 王道考研 计算机网络-1.2.4TCP,IP参考模型和五层参考模型 文章目录4.TCP,IP参考模型和五层参考模型4.1OSI参考模型与TCP/IP参考模型4.2OSI参考模型与TCP/IP参考模型的相同点4.3OSI参考模型与TCP/IP参考模型的不同点4.4五层参考协议4.4五…

从城市大脑到世界数字大脑 构建人类协同发展的超级智能平台

作者:远望智库数字大脑研究院院长,中国科学院虚拟经济与数据科学研究中心研究组成员,南京财经大学教授 刘锋(本文2021年12月发表于中国建设信息化)一.世界数字大脑产生的背景世界数字大脑与城市大脑的产生…

计算机网络学习笔记-1.2.3第一章总结

计算机网络-2019 王道考研 计算机网络-1.3第一章总结 文章目录3第一章总结3第一章总结

Science长文综述:通过空间斑图形成避免复杂系统崩溃

来源: 集智俱乐部作者:Max Rietkerk et al.译者:吕丽莎、胡一冰、李明章、郭瑞东、张澳审校:张澳、梁金编辑:邓一雪导语今天的地球处于人类世,人类活动对整个地球生态系统具有深刻影响。由于干旱和过度放牧…

计算机网络学习笔记-目录(更新日期:2020.4.8)

导语:文章合为时而著,歌诗合为事而作,我们学习,也自然需要知道我们为什么学这玩意儿~ 对于计算机网络这门课呢,大家如果是计算机专业的学生,那就是必上的一门科目啦,但是为什么要上呢?对于不同的…

达摩院发布:2022年十大科技趋势

来源:达摩院刚刚,阿里巴巴达摩院发布2022十大科技趋势,这是达摩院连续第四年发布前沿科技趋势预测。达摩院分析了近三年来的770万篇公开论文、8.5万份专利,覆盖159个领域,深度访谈近100位科学家,提出了2022…

Nature癌症“牵线木偶”理论:科学家找到了不易误伤健康细胞的“剪刀”

来源:生物通密歇根大学健康罗格尔癌症中心的研究人员证明,SWI/SNF复合物有助于获取癌基因可以结合的增强子,并驱动癌症中的下游基因表达。降解这个复合体的亚基会阻断癌基因。这一发现揭示了一种治疗由不同基因驱动的前列腺癌的新方法&#x…

JavaSE进阶学习笔记-目录汇总(待完成)

声明:此博客来自于黑马程序员学习笔记,并非商用,仅仅是为了博主个人日后学习复习用,如有冒犯,请联系qq208820388立即删除博文,最后,来跟我一起喊黑马牛逼黑马牛逼黑马牛逼 JavaSE进阶学习笔记-…

IEEE 发布年终总结,AI 奇迹不再是故事

来源:AI科技大本营(ID:rgznai100)编译:禾木木2021 年,人工智能奇迹不再只是故事!人工智能正在迅速融入各行各业,IEEE Spectrum 总结了 2021 年 10 篇最受读者欢迎的 AI 文章,按时间排…

JavaWeb学习笔记-目录(待完成)

JavaWeb学习笔记-目录(待完成) 01-基础加强(注解反射) 02-mysql基础 03-mysql约束 04-mysql多表事务 05-jdbc 06-jdbc连接池JDBCTemplate 07-html 08-css 09-js基础 10-js高级 11-bootstrap 12-xml 13-toncat-servel…

我们正处于新科学革命的起点 | 学界热议AI for Science

来源:科学网编辑:宗华排版:李言作者:赵广立我们正处于新科学革命的起点▲ 北京大学、普林斯顿大学教授 鄂维南数百年来,以数据驱动的开普勒范式和以第一性原理驱动的牛顿范式是科学研究的两大基本范式。当下正在蓬勃兴…