图灵测试其实已经过时了

25d29ba33188eaf5f13b9ad082eacc75.png

来源:立委NLP频道

图灵测试的实质就是要让人机交互在限定时间内做到真假莫辨。玩过GPT3的同学们都清楚,其实这一点已经做到了。从这个角度看,图灵测试已经过时了。区别人和机器,需要寻找其他的标准。

今天就唠一唠正在风口上的预训练语言大模型。大模型标志着NLP的新方向。这是只有大投资或大厂才能玩得起的游戏,目前推出了30多款大模型。咱们先从 GPT3 谈起。

GPT3 是 OpenAI 推出的自然语言生成模型,是语言超大模型潮流中的比较成熟的一款。生成模型擅长的应用领域主要在人机对话的场合。最为人乐道的是它的“善解人意”,貌似可以听懂人给它的指令。这就是所谓 prompt(提示)接口:人不需要编程代码,而是可以直接通过自然语言的提示和样例,告诉它想生成什么,无论是回答问题、机器翻译、生成对联还是聊天,它都蛮擅长。可以说,GPT3 的 prompt 已经部分实现了白硕老师所说的 NL2X (至少在任务X是语言生成类的场景)的闭环。

自从 GPT3 发布以来,有很多令人惊艳的表现被用户录屏在网上流传。已经形成了用户粉丝群体了。当然很快就有人找到某个角度让模型露怯,表明模型并不真“理解”背后的逻辑。但这并不影响还有很多看似 open-ended 的语言任务,它真是听了就能做。

例如,有人要它就某个话题帮助写一篇英文文章。

这可算是流畅自然的对话了,听懂了似的,虽然还没有去具体执行任务 lol 接着用户重复这个要求,它果然就立即执行了,文章写得好坏再论,人家反正是听从了指令,跟个切身小蜜似的。

因为是生成模型,所以人机交互的时候,它的应对具有随机性。有时候让人惊艳,有时候也会露怯。但交互本身总是很流畅,给人感觉,通过图灵测试已经不在话下。

老友说这不过是噱头。我不大同意。噱头是人为的,模型并不懂什么叫噱头,也不会刻意为之。当然也可以说是测试者挑拣出来的噱头。不过,好在模型是开放的、随机的,可以源源不断制造这种真假莫辨的人机交互噱头。在知识问答、翻译、讲故事、聊天等方面,就是图灵再生也不大容易找到这一类人机交互的破绽。又因为其随机性,每次结果都可能不同,就更不像是只懂死记硬背的机器了。机器貌似有了某种“灵性”。

再看看 GPT3 模型中的中文表现。

a4c9340882db630f07db916982008874.png

词做得不咋样,尤其是对于大词人辛老,他老人家应该是字字珠玑。但这里的自然语言对话,模型对于自然语言提示的“理解”,以及按照要求去做词,这一切让人印象深刻。这种人机交互能力不仅仅是炫技、噱头就能无视的。

当然,现在网上展示出来的大多是“神迹”级别的,很多是让人拍案叫绝的案例。生成模型随机生成的不好的结果,通常被随手扔进垃圾桶,不见天日。这符合一切粉丝的共性特点。但慢慢玩下来,有几点值得注意:

1. 有些任务,靠谱的生成居多。例如,知识问答几乎很少出错。IBM沃伦当年知识问答突破,背后的各种工程费了多大的劲儿。现在的超大模型“降维”解决了。同时解决的还有聊天。

2. 随机性带来了表现的不一致。但如果应用到人来做挑选做判官的后编辑场景,则可能会有很大的实用性。以前说过,人脑做组合不大灵光,毕竟记忆空间有限,但人脑做选择则不费力气。结果是好是坏,通常一眼就可以看出来。结果中哪些部分精彩,哪些部分需要做一些后编辑,这都是人的长项。人机耦合,大模型不会太远就会有实用的东西出来。例如辅助写作。

3. 超大模型现在的一锅烩和通用性主要还是展示可行性。真要领域规模化落地开花,自然的方向是在数据端做领域纯化工作,牺牲一点“通用性”,增强领域的敏感性。这方面的进展值得期待。

老友说,我还觉得应该在硬件(模型架构上有一些设计),不仅仅是为了lm意义上的,还要有知识的消化和存储方面的。

不错,目前的大模型都是现场作业,基本没有知识的存贮,知识也缺乏层次、厚度和逻辑一致性。这不是它的长项。这方面也许要指望今后与知识图谱的融合。(图谱的向量化研究据说目前很火。)

听懂人话,首先要有解析能力吧。大模型中的另一类就是主打这个的,以 BERT 为代表。BERT 实际上就是个 parser,只不过结果不是以符号结构图表示而已。认清这一点,咱们先看看 parser 本身的情况。

很久以来一直想不明白做语言解析(parsing)怎么可能靠训练做出好的系统出来。按照以前对于解析的理解,这是要把自然语言消化成结构和语义。而结构和语义是逻辑层面的东西,没有外化的自然表现,它发生在人脑里。训练一个 parser,机器学习最多是用 PennTree 加上 WSD 的某些标注来做,那注定是非常局限的,因为标注代价太高:标注语言结构和语义需要语言学硕士博士才能做,普通人做不来。这就限定死了 parser 永远没法通用化,可以在指定语料,例如新闻语料中做个样子出来,永远训练不出来一个可以与我们这些老司机手工做出来的 parser 的高质量和鲁棒性。因此,让机器去做符号parsing,输出符号结构树是没有实用价值的。迄今为止,从来没有人能成功运用这类训练而来的 parsers (例如谷歌的 SyntaxNet,斯坦福parser,等) 做出什么像样的应用来,就是明证。

现在看来,这个问题是解决了。因为根本就不要用人工标注,用语言本身就好。parsing 也不必要表示成显性结构和语义符号,内部的向量表示就好。把语言大数据喂进去,语言模型就越来越强大,大模型开始显示赋能下游NLP任务的威力。黄金标准就是随机选取的语言片段的 masks(遮蔽起来让训练机器做填空题),所学到的语言知识比我们传统的符号 parser 不知道丰富多少,虽然牺牲了一些可解释性和逻辑一致性。

看得见摸不透的中间向量表示,终于靠语言模型与实际原生语料的预测,落地了。这个意义怎么高估也不过分。所以,昨天我把我的博客大标题“deep parser 是NLP的核武器”悄悄改了,加了个限定词,成了:

ba62ba1636c0cccdf68e92ccf84cd113.png

因为 BERT/GPT3 里面的语言模型(特别是所谓编码器 encoders)才是更普适意义上的 NLP 核武器。我们语言学家多年奋斗精雕细刻的parsers是小核见大核,不服还真不行。

从语言学习语言,以前感觉这怎么能学好,只有正例没有反例啊。(顺便一提,乔姆斯基当年论人类语言的普遍文法本能,依据是:没有天生的普遍文法,单靠暴露在语言环境中,儿童怎么可能学会如此复杂的自然语言,毕竟所接触的语言虽然全部是正例,但却充满了口误等偏离标准的东西。)

其实,一般而言,语言模型只要有正例即可。从语言学习语言的模型训练,通常用对于next word 的预测,或者对于被遮蔽的随机片段(masks) 的预测来实现。正例就是原文,而“反例”就是一切偏离正例(ground truth)的随机结果。通过梯度下降,把这些随机结果一步步拉回到正例,就完成了语言模型的合理训练。语言模型,乃至一切预测模型,从本性上说是没有标准(唯一)答案的,每一个数据点的所谓 ground truth 都只是诸多可能性之一。语言模型的本质是回归(regression)任务,而不是分类(classification)任务,只有正例就好 ,因为整个背景噪音实际上就是反例。

有意思的是,BERT 除了语言的句子模型外,还要学习篇章(discourse)知识,这歌任务被定义为简单的二分类问题,回答的是:两个句子是否具有篇章连续性。这里,没有反例,就自动创造反例出来。语料中任意两个相邻的句子就成为正例,而随机拼凑的两个句子就成了反例。一半正例,一半反例,这么简单的 classifier 就把这个难题破解了,使得语言模型超越了句子的限制。

看看 BERT 大模型是如何训练并被成功移植去支持下游NLP任务的,这就是所谓迁移学习(transfer learning)。

bd363643a41dfb9d7256cbdd0635bf2c.png

(本图采自谷歌的DL视屏讲座,版权归原作者所有)

左边的 encoder 的训练。落地到 LM 的原生数据,因此完全符合监督学习的 input –》output 模式。到了NLP应用的时候(右图),不过就是把 encoder 拷贝过来,把落地的目标改成特定NLP任务而已。加一层 output layer 也好,加 n 层的 classifier 也好,总之前面的语言问题有人给你消化了。

Transfer learning 也嚷嚷了好多年了,一直感觉进展不大,但现在看来是到笑到最后的那刻了。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

814a219245ab94575a8e91eaff6c56c0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482130.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

揭示世界本质的「机器科学家」,比深度神经网络还强?

来源:AI科技评论作者:Charlie Wood编译:王玥、刘冰一编辑:陈彩娴我们正处于“GoPro 物理学”的风口浪尖。无论摄像机聚焦于什么事件,算法都可以识别其中潜在的物理方程。2017 年,西北大学化学与生物工程系的…

AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

来源:ACM通讯编译:王玥编辑:陈彩娴在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推…

物理学家:时间旅行有可能实现,但前提是……

来源:机器之心作者:Barak Shoshany原文链接:https://phys.org/news/2022-04-parallel-timelines.html时间旅行是科幻电影、小说中经久不衰的话题,然而直到现在,我们依然无法确定这种幻想是否可行。在这篇文章中&#x…

二叉树----数据结构:二叉树的三种遍历及习题

二叉树----数据结构:二叉树的三种遍历,利用递归算法。 关于二叉树的遍历,应用非常广泛,不单单是访问打印结点,还可以进行一系列的操作,如赋值、删除、查找、求二叉树的深度等等。 有递归和非递归两种算法,非递归用到了…

谷歌硬件主管:AR眼镜还在开发,环境计算是未来目标

来源:网易智能5月13日消息,谷歌硬件主管里克奥斯特洛 (Rick Osterloh)日前在接受采访时表示,“环境计算”是谷歌未来的目标和愿景。奥斯特洛周三在接受采访时表示:“计算应该能够无缝帮助你解决任何问题,而且就在你身边…

大脑衰老可逆转,只需注入年轻脑脊液,「返老还童」登Nature

来源:FUTURE远见 选编:闵青云 「老喽,记不住喽。」随着年龄的不断增长,不少人都会发出这样的感叹——记忆力逐渐下降。那么是否存在一种方法,可以让这种自然现象「逆天改命」呢?Nature说:有的。…

人工智能在苍蝇眼的帮助下监测无人机:新的仿生算法从噪声中提取信号

来源:国际仿生工程学会2018年12月,由于有报道称附近有无人机飞行,数千名度假旅客被困在伦敦盖特威克机场。导致这个欧洲非常繁忙的机场关闭了两天,造成重大延误,并使航空公司损失了数百万美元。商业空域中未经授权的无…

树的知识点总结-数据结构

** 一:树的基本术语 1.定义 树是一种非线性结构,只有一个根结点,除根结点外每个孩子结点可以有多个后继,没有后继的结点叫叶子结点。 2.概念 根结点:没有前驱; 孩子:有前驱的结点;…

NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA

来源:机器之心编辑:张倩、小舟在这篇论文中,来自谷歌的研究者提出了一种统一各种预训练范式的预训练策略,这种策略不受模型架构以及下游任务类型影响,在 50 项 NLP 任务中实现了 SOTA 结果。当前,NLP 研究人…

赫夫曼树编码的算法及应用习题--数据结构

赫夫曼树编码的算法及应用习题 1.构造赫夫曼树的方法 1.根据给定的n个权值{w1,w2,---wn},构成n棵二叉树的集合F{T1,T2...,Tn},其中每棵二叉树中只有一个带权为Wi的根结点,其左右子树为空。 2.在F中选取两棵根结点的权值最小的树作为左右子树&#xff…

吴咏时:未来基础学科发展的“铁三角”

来源: 节选自《物理》2022年第5期《圆桌论坛:对21世纪物理学的愿景展望》。2021年9月,在清华大学举行“庆祝杨振宁先生百年华诞思想研讨会”圆桌论坛环节上,美国犹他大学教授吴咏时对今后基础物理学做了一番展望。他指出了基础物理…

树的叶子结点与完全二叉树结点计算方法

一:完全二叉树中结点问题 分析: 设叶子节点个数为n0,度为1的节点个数为n1,度为2的节点个数为n2 侧有 n0n1n2n (1) 对于二叉树有: n0n21 (2) 由(1)(2) > n0(n1-n1)/2 (3) 由完全二叉树…

图的知识点总结-数据结构

一&#xff1a;图的基本概念和术语 1.图之间的关系可以是任意的&#xff0c;任意两个数据元素之间都可能相关。 2.顶点&#xff1a;数据元素。 3.边or弧&#xff1a;从一个顶点到另一个顶点的路径。<V, W>表示弧&#xff0c;&#xff08;V,W&#xff09;表示边&#x…

当物理学遇到机器学习:基于物理知识的机器学习综述

来源&#xff1a;集智俱乐部作者&#xff1a;潘佳栋 审校&#xff1a;梁金编辑&#xff1a;邓一雪摘要物理信息机器学习&#xff08;Physics-informed machine learning&#xff0c;PIML&#xff09;&#xff0c;指的是将物理学的先验知识&#xff08;历史上自然现象和人类行为…

图的遍历——深度优先搜索+广度优先搜索

一&#xff1a;图的遍历——深度优先搜索 在本文其他内容中只是大体概括了主要的图论内容&#xff0c;更加详细的代码实现及算法分析在此给出。 深度优先搜索&#xff08;DFS&#xff09;类似树的先序遍历。 假设初始状态是图中所有顶点未曾被访问&#xff0c;则深度优先搜索…

RISC-V何以成功?

来源&#xff1a;AI前线作者&#xff1a;BRIAN BAILEY译者&#xff1a;王强策划&#xff1a;刘燕RISC-V 处理器架构的诞生毫无疑问让很多人都为之兴奋不已。然而&#xff0c;尽管许多人都说 RISC-V 预示着我们将迎来更广泛的开源硬件运动&#xff0c;但这种架构究竟为什么取得成…

最小生成树——普里姆算法和克鲁斯卡尔算法

最小生成树 用来解决工程中的代价问题。 一&#xff1a;普里姆算法 具体代码用C语言实现如下&#xff1a; typedef int VRType;typedef char InfoType;#define MAX_NAME 3 /* 顶点字符串的最大长度1 */#define MAX_INFO 20 /* 相关信息字符串的最大长度1 */typedef char Vert…

大雅之美:十位大数学家心中最美的公式

来源&#xff1a;本文译自 http://www.concinnitasproject.org/portfolio/&#xff0c;中译文曾发表于 《中国数学会通讯》2017 年第 1 期。译者&#xff1a;刘云朋&#xff0c;天津大学理学院校译&#xff1a;林开亮大雅之美&#xff1a;十位大数学家心中最美的公式牛顿法Ste…

TabError的解决方法

问题&#xff1a;Python文件运行时报TabError: inconsistent use of tabs and spaces in indentation 原因&#xff1a;说明Python文件中混有Tab和Space用作格式缩进。这通常是使用外部编辑器编辑Python文件时&#xff0c;自动采用Tab进行格式缩进。 解决&#xff1a;将Tab转…

《Nature》:给老年小鼠注射年轻小鼠的脑脊液可以改善记忆力!

来源&#xff1a;生物通一个国际研究团队发现&#xff0c;向老年小鼠注射年轻小鼠的脑脊液可以改善记忆。在发表在《自然》(Nature)杂志上的论文中&#xff0c;该小组描述了一种技术&#xff0c;可以从年轻小鼠体内取出少量脑脊液&#xff0c;并将其注射到年老小鼠的大脑中&…