特约专栏丨孙茂松教授——自然语言处理一瞥:知往鉴今瞻未来

7b15e055542e84aa9869dd4dbdefe5ba.png

来源:中国人工智能学会

文 :孙茂松

人类语言(即自然语言)的重要性无论怎么讲都不为过。社会生物学之父爱德华·威尔逊曾说过:“语言是继真核细胞之后最伟大的进化成就”。科普畅销书《信息简史》的作者詹姆斯·格雷克也深刻地指出:“语言本身就是人类有史以来最大的技术发明”。这些断言带有科学哲学的意味,反映了现代人类对语言本质理解的不断深化。 

众所周知,语言是人类所独有的,是思维的载体,是人类交流思想、表达情感最自然、最深刻、最方便的工具。其中这几个“最”字非同小可。语言之于人类就如同空气之于生物,它时时刻刻、无声无息地融通于我们生活的世界中;它是如此的自然以至于我们常常意识不到它的存在,但一旦没有了它,人类将举步维艰。很不幸,人类语言能力正是现代计算机系统所不具备的,呈现出整体性缺失。一个显而易见的逻辑是,没有语言能力的机器,不可能有真正的智能。 

自然语言具有无穷语义组合性、高度歧义性和持续进化性等,机器要实现完全意义上的自然语言理解,“难于上青天”。自然语言理解(一个退而求其次的提法——自然语言处理),因其兼具无与伦比的科学意义与学术挑战度,吸引了一代代学者殚思竭虑、前赴后继。

简介

107a0bc8fc03a7c635693f74c089d49f.png

自然语言处理对世界人工智能发展三个里程碑式的贡献

“却顾所来径、苍苍横翠微”。笔者认为,自然语言处理研究(包括文本处理和语音处理两个相辅相成的方面)在世界人工智能发展史上有三个里程碑式的“开风气之先”贡献。不揣孤陋寡闻,一孔之见,不一定对,抛砖引玉而已。

第一个里程碑式贡献 

现代意义的人工智能技术研究发端于自然语言处理。对机器智能的痴迷与摸索由来已久,1946年第一台通用计算机ENIAC面世,无疑是一个历史分水岭。早在1947年,时任美国洛克菲勒基金会自然科学部主任的 Warren Weaver,在写给控制论之父维纳的一封信中就讨论了利用数字计算机翻译人类语言的可能性,1949年他发布了著名的《翻译》备忘录,正式提出机器翻译任务并设计了科学合理的发展路径(其内容实际上涵盖了理性主义和经验主义两大研究范式)。1951 年以色列哲学家、语言学家及数学家Yehoshua Bar-Hillel在麻省理工学院便开始了机器翻译研究。1954年Georgetown大学与IBM合作的机器翻译实验系统进行了公开演示。机器翻译是典型的认知任务,显然属于人工智能领域。

第二个里程碑式贡献

自然语言处理在人工智能领域乃至整个计算机科学与技术领域较早提出并系统性践行了非结构化“大数据”理念,整体上实现了理性主义研究范式向经验主义研究范式的嬗变。下面举两个典型工作。 

一是连续语音识别。自上个世纪70年代中期开始,著名学者Frederick Jelinek领导的IBM研发小组即提出了基于语料库n-gram语言模型(实际上就是n阶马尔科夫模型)的大词表连续语音识别方法,使语音识别的性能上了一个大台阶。这个思路对语音识别领域产生了20年左右的深远影响,甚至包括90年代推出的开创了机器翻译新格局的IBM统计机器翻译模型(该模型使机器翻译研究回归到1949年Warren Weaver建议的经验主义研究范式下,充分展示了他的先见之明)。

二是词性自动标注。1971年曾有学者精心设计过一个TAGGIT英语词性标注系统,使用了3300条人工编制的上下文敏感规则,在100万词次的布朗语料库上获得了 77%的标注正确率。1983—1987年间英国兰开斯特大学的一个研究小组另辟蹊径,提出了不需要人工规则的数据驱动新方法,利用已带有词性标记的布朗语料库,构造了基于隐马尔科夫模型的CLAWS英语词性标注系统,并对100万词次的LOB语料库进行词性自动标注,正确率一举跃升到96%。

第三个里程碑式贡献 

当前这一波席卷全球的人工智能高潮肇始于自然语言处理。2009—2010年间著名学者Geoffrey Hinton与微软邓力博士合作,率先提出了基于深层神经网络的语音识别方法,使得语音识别的性能突破了近10年的瓶颈制约,更上一层楼,令学界初步体会到了深度学习的威力,信心顿增,一扫对深度学习框架半信半疑之状态,其后各研究领域遂从者如云,争先恐后如过江之鲫。2016年谷歌推出了深层神经网络机器翻译系统GNMT,彻底终结了IBM统计机器翻译模型,翻开了新篇章。

基于深度学习的自然语言处理:目前形成的基本态势

自2010年以来,深度学习异军突起,日新月异,强力推动了人工智能的全面发展。10年发展的结果是,一方面,深度学习使人工智能技术从几乎完全“不可用”走向了“可用”,取得了历史性的非凡进步;另一方面,虽然它使得人工智能系统在几乎所有经典任务上的性能表现均得以明显提升,但受囿于深度学习方法所存在的深刻短板,在很多应用场景尚达不到“能用、管用、好用”。自然语言处理领域基本上也是这样,本文不赘述。

宏观上看,人工智能领域的发展无例外地得益于两大类型的方法利器:针对图像的卷积神经网络(CNN),以及针对自然语言文本的循环神经网络(RNN)。最初两三年前者风头尤劲,近些年后者贡献更为卓著。若干影响深度学习全局的主要思想,如注意力机制、自注意力机制、Transformer架构,均出自后者。 

基于深度学习的自然语言处理,在短短10年中即完成了模型框架上的三次华丽迭代,“从山阴道上行,山川自相映发,使人应接不暇”,先后达至三重境界(实际上这也是深度学习的三重境界)。

第一重境界 

针对每个不同的自然语言处理任务,独立准备一套人工标注数据集,各自几乎从零开始(常辅以word2vec 词向量),训练一个该任务专属的神经网络模型。其特点我称之为“白手起家 + 各家自扫门前雪”。 

第二重境界 

首先基于大规模生语料库,自学习、无监督地训练一个大规模预训练语言模型(PLM),然后针对每个不同的自然语言处理任务(此时也称作下游任务),独立准备一套人工标注数据集,以PLM为共同支撑,训练一个该下游任务专属的轻量级全连接前馈神经网络。在这个过程中,PLM的参数会做适应性调整。其特点我称之为“预训练大模型+大小联调”。 

第三重境界 

首先基于极大规模生语料库,自学习、无监督地训练一个极大规模的PLM;然后针对每个不同的自然语言处理下游任务,以PLM为共同支撑,通过少次学习(few-shot learning)或提示学习(prompt learning)等手段来完成该任务。在这个过程中,PLM的参数不做调整(实际上由于模型规模太过庞大,下游任务也无力调整)。其特点我称之为“预训练巨模型 + 一巨托众小”。 

这三重境界, 一重比一重来得深刻;一重比一重有更多的“ 形而上” 感 觉。在GLUE和SuperGLUE公开评测集上的性能表现,也是一重比一重要好(目前正处于第三重)。 

近年来,在世界范围内人工智能界各路英豪围绕预训练语言模型展开了巅峰对决,模型规模急剧膨胀(如 2020年6月OpenAI推出的GPT-3模型参数规模达1750亿个,2021年10月微软和英伟达联合推出的MT-NLG 模型飙升到了5300亿个参数),你争我夺,你争我赶,好不热闹。2021年8月,斯坦福大学专门举办了两天的学术研讨会,将第三重境界中的“预训练巨模型”命名为“基础模型”(foundation model),并随即发表了一篇数百页的长文,全面阐述其观点。文中绘制了一张示意图(见图1),揭示了“基础模型”在智能信息处理的中枢作用(其作用疆域已扩展至全数据类型和多模态)。

28f7d88adb053561fde2c356192d8885.png

图 1 “基础模型”在智能信息处理的中枢作用

对“基础模型”也有很多质疑的声音,如图灵奖得主Judea Pearl就在推特上发问:“‘基础模型’使得我们可以绕开以数据为中心的方法的理论局限性的科学原理是什么呢?”(What is the scientific principle by which‘Foundation models’can circumvent the theoretical limitations of data-centric methods as we know them…?) 

但无论如何,“基础模型”作为智能信息处理公共基础“软”设施的重要地位似已可以基本成立。第一重境界好比各家在海拔几乎为零的沙滩上盖房子,只能自家打好自家的地基,一砖一瓦自己盖起来,很是辛苦,效率也就比较低;第二重境界则是搭建了一个海拔二三十米的共同台面,各家都在这个台面上盖房子,自己打地基的工作大体可以省掉,效率大为提升,但由于台面还不够高,基础不一定处处可靠,所以各家盖房子时还要照顾到台面情况,适当夯实、调整一下台面;第三重境界把公共平台建到了二三百米,地基很牢固,台面高了,即使简单搭个小凉亭,登高望远风景也会不错,各家盖房子需要操心的因素自然就更少了许多,效率得以进一步提升。这是我对“基础模型”定位的一种形象解释。

我们不妨以参数规模达千亿个的百度文心NLP大模型(https://wenxin.baidu.com/wenxin/ernie) 为例,初步体验一下大模型。首先简单考察其“自由创作”功能。随意输入如下一段话,让机器续写:

沿着曲径一路走去,未见 

机器续写的句子相当精彩: 

到一个人,只有几株高大的银杏树和一些不知名的花朵在阳光下灿烂地开放,偶尔还能够见到两只小鸟。

还是那句输入,让机器再续写一段: 

任何人烟,却有一个小山村静谧地伫立在那里。这就是位于大兴区榆垡镇的后石坞乡前石坞村,全村共300户左右、800多口人。如今,农村已经成为许多家庭主要的生活来源之一了。现在我们不仅吃穿住都好,还能看到很多漂亮精彩的节目!

这段话虽然通顺,但文字发展脉络已经有些奇了。

再考察其“自由问答”功能。提问:

山东哪一座山最高?

机器回答: 

泰山。

换个问法儿再问机器: 

山东最高的山是哪座? 

机器回答: 

泰山! 

考虑到这是生成式回答,机器能做到这一点相当不错。但同样的问题多问机器几次,机器就“蒙圈”了,胡乱回答: 

青岛的崂山。这个不用想

五莲山,海拔1095米

济南 

可见大模型有比较广博的知识能力,但博而不精,严重缺乏自知之明。所以很容易在语义逻辑上被“攻击”或者“为难”。掉过头来再考察一下其“自由创作”功能。输入: 

沿着人来人往的曲径一路走去,未见 

机器续写: 

一个行人,只有几盏灯笼照着地上的影子。 

输入: 

沿着人满为患的曲径一路走去,未见 

机器续写: 

任何一个人,这里是否有着另外的生命存在?沿途所见皆为枯死之树和倒伏的草木。而他们却不曾注意到身后那片绿意盎然的山谷!“好美啊 ~”她轻盈跳跃在空中,看向下方正在忙碌的众人道了声赞叹。听闻此言时莫云殇也停止了手上的活计转头望去,只见远处的林间开满了

由上述几个例子可以看出,大模型有明显的长处,但也存在明显的短处。它就是一个有一定海拔高度的台面,在上面可以比较便利地盖房子,但它并不意味着房子已经盖好。其实要在其上盖起一座真正“能用、管用、好用”的房子,还是需要下大气力的。

第三重境界带来的困惑与思考:自然语言处理今后若干年的主要挑战

我认为 , 自然语言处理在今后若干年主要面临两大挑战。

第一个挑战:力大者为王? 

这是顺着目前形成的基本态势,也就是“基础模型”自然向前延伸的。虽然这一路依然在高歌猛进,但“基础模型”本身显然不能解决深层次语义问题;换言之,它注定不能直接导致通用人工智能(虽然它肯定会是设想中的通用人工智能的一个基础部件)。那么,一个自然而然的问题就产生了:这种追求规模(数据、模型、算力)极致化的策略还能走多远?连带的另一个问题是,我们应该做些什么? 

我想可以从“基础模型”的开发性(exploitation)和探索性(exploration)两个角度予以回答。 

开发性(exploitation)更多注重“基础模型”的工程性,有如下几点应予注意。

●目前构造及使用“基础模型”的算法本身还是偏粗放型的。前文给出的百度文心 NLP 大模型表现的一些“毛病”,可望通过积极改进算法部分地予以解决。

●对少次学习、提示学习、基于适配器的学习(adapter-based learning)等与“基础模型”配套的新手段的研发工作应予加强。

●训练数据包罗万象一定就好吗?是否应对大数据中明显存在着的大量噪声进行筛选?

●排行榜对模型研发无疑非常重要。但排行榜不是唯一的金标准,应用才是最终的金标准。

●研发“基础模型”的企业不能“王婆卖瓜,自卖自夸”,要开放给学术界测试。不开放给学术界测试的“基础模型”,其性能是存疑的。学术界不宜盲信盲从。

●“基础模型”亟需找到杀手级应用,才能令人信服地证明自己的能力。

探索性(exploration)则更多注重“基础模型”的科学性。鉴于“基础模型”确实呈现出了一些令人惊奇(或者“奇怪”)的现象,目前尚未给出科学的解释。典型如:

●为什么大规模预训练语言模型会出现deep double descent现象 ( 这一点似乎超越了机器学习中“数据复杂度与模型复杂度应基本匹配”的金科玉律 ) ?

●为什么“基础模型”具有少次学习甚至零次学习的能力?这些能力是怎么获得的?其中是否出现了复杂巨系统的涌现现象?

●为什么提示学习能奏效?这是否暗示“基础模型”内部可能自发地产生了若干功能分区,而一个个提示学习恰好提供了启用一个个功能分区的钥匙?

●如果是这样,功能分区的分布可能是怎样的?由于“基础模型”的核心训练算法极其简单(语言模型或完形填空模型),这又隐含着什么深意?

我个人认为,对“基础模型”科学意义的探索也许大于其工程意义。如果其中确乎蕴涵着上述一二玄机,那么这将对人工智能模型的全新发展具有深刻的启迪性,“基础模型”也会出现“山重水复疑无路、柳暗花明又一村”的全新气象。此外对脑科学、认知神经科学研究也可能富有启发性。

第二个挑战:智深者为上?

这是人工智能的“初心”和永恒梦想,与第一个挑战的思路相去甚远,但其必要性毋庸置疑。这里举例说明。

前文提及的机器翻译先行者Yehoshua Bar-Hillel,1960年发表了一篇长文《语言自动翻译的现状》,对机器翻译的前景进行了展望。文中他举了一个对人来说易如反掌,但对机器翻译来说异常棘手的一个句子(注意其中的 The box was in the pen):

Little John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. 

 其中pen有两个意思:“钢笔”和“围栏”。要正确地翻译成“围栏”, 机器需要明白介词in的意思,同时具备相关的世界知识。我们把这个简单的英文句子,送给用深层神经网络和大数据武装到牙齿的机器翻译系统。

谷歌翻译结果:盒子在笔里。 

百度翻译结果:盒子在钢笔里。

60多年过去了,还是没搞定。

可喜的是,在“力大者为王”波澜壮阔、摧枯拉朽的大势下,一批学者仍在坚持并积极倡导小数据、富知识、因果推理等“智深者为上”的下一代人工智能发展理念。不过目前研究进展不大。这条道路上有两个难以逾越的“拦路虎”。 

一是形式化常识库和世界知识库依然严重缺乏。Wikidata之类的知识图谱貌似规模庞大,但如果稍微审视一下就会发现,它所覆盖的知识范围仍然十分有限。事实上,Wikidata存在明显的构成性缺失,多是关于实体的静态属性知识,关于动作、行为、状态,以及事件逻辑关系的形式化描写则几乎没有。这就使得它的作用域严重受限,实际效能大打折扣。 

二是系统性获取“动作、行为、状态,以及事件逻辑关系”之类形式化知识的能力依然严重缺失。对开放式文本(如 Wikipedia 文本)进行大规模句法语义分析是必由之路。但很可惜,目前这个句法语义能力还不太具备(虽然近年来借助深度学习方法,已经有了长足进步)。 

这两个“拦路虎”必须想办法解决。否则,巧妇难为无米之炊,这条路不易走通。 

上述两大挑战,其实也是整个人工智能领域所必须面对的。

结束语

自然语言处理一路走来至今日,形成了“力大者为王”和“智深者为上”两条道路。前者道路宽广,顺风而下,但貌似快走到尽头;后者道路狭窄,逆风而上,但应该会悠长隽永。前看两者可以并行不悖,互相借鉴,互为支持,如“基础模型”可望有效提升大规模句法语义自动分析的能力,从而为大规模知识自动获取提供前提条件。“基础模型”可能包藏了某些深邃的计算机理或奥秘,或导致大的“峰回路转”,值得密切关注。未来 10 年,自然语言处理在研究和应用上整体上创造一个恢弘格局,并对人工智能领域的发展做出关键性贡献,是可以期待的。

(参考文献略)

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

d48bb3b8dd16ef646253b55f18900b1c.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482446.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安全隐患:神经网络可以隐藏恶意软件

来源:AI科技大本营(ID:rgznai100)编译:禾木木凭借数百万和数十亿的数值参数,深度学习模型可以做到很多的事情,例如,检测照片中的对象、识别语音、生成文本以及隐藏恶意软件。加州大学圣地亚哥分…

ASP.NET MVC教程四:ASP.NET MVC中页面传值的几种方式

准备 在Models文件夹里面新添加Student实体类,用来模拟从Controller向View传递数据,Student类定义如下: using System; using System.Collections.Generic; using System.Linq; using System.Web;namespace MVCStudyDemo.Models {public clas…

量子计算,后摩尔时代计算能力提升的解决方案

来源:微信公众号蓝海长青智库原载于《学习时报》2022年3月2日刊作者:朱晓波1、陆朝阳1、潘建伟2,31 中科学技术大学合肥微尺度物质科学国家研究中心2 中国科学院院士3 中国科学技术大学量子计算是基于量子力学的全新计算模式,具有原理上远超经…

ASP.NET MVC教程六:两个配置文件详解

前言 在新建完一个MVC项目之后,你会发现整个整个项目结构中存在有两个web.config文件,如下图所示: 这两个配置文件,一个位于项目的根目录下面,一个位于Views文件夹下面,这两个配置文件有什么不同呢&#xf…

Nat. Commun. 速递:虚拟颅内脑电与神经动力学模型

来源:集智俱乐部作者:曹淼 编辑:邓一雪 导语时间-空间尺度动态演变的动力学系统建模,为研究大脑状态和状态转移的神经机制提供了理论基础。最近墨尔本大学曹淼等人的联合团队在Nature Communications发表论文,提出了虚…

ASP.NET MVC教程五:ASP.NET MVC中的路由

一、概述 在ASP.NET MVC架构中,控制器在3大核心构件中处于中心地位,通过控制器支配模型和视图,然而从浏览器发出的请求到控制器还需要路由的协助,路由将特定的请求和控制器的动作对应起来。 在ASP.NET MVC程序中,路由主…

一文梳理深度学习算法演进

来源:https://zhuanlan.zhihu.com/p/464515049作者:Peter潘欣编辑:蘑菇先生学习记涉及语音、图像、nlp、强化学习、隐私保护、艺术创作、目标检测、医疗、压缩序列、推荐排序等方向。文章较长,耐心读完会有收获。1. 前言如果说高德…

ASP.NET MVC教程八:_ViewStart.cshtml

一、引言 _ViewStart.cshtml是在ASP.NET MVC 3.0及更高版本以后出现的,用Razor模板引擎新建项目后,Views目录下面会出现一个这样的文件: 打开_ViewStart.cshtml文件,里面只有一行代码: 这行代码表示使用Views文件夹下的…

2021年全球十大工程成就,中国有几个? | 科技袁人

来源: 风云之声视频链接:西瓜视频:https://www.ixigua.com/7068180516549329415本视频发布于2021年2月25日,观看量已达7.4万次精彩呈现:2021年,中国工程院院刊《Engineering》组织了一个“全球十大工程成就…

formSelects-v4.js 基于Layui的多选解决方案

详情链接地址: https://hnzzmsf.github.io/example/example_v4.html#select_search_server1、闲谈杂趣v3传送门 v3文档其实思考了很久, 还是放弃了v3, 因为开发v3的时候很粗暴, 按照编程角度来看就是硬撸, 也怪自己实力有限, 所以反思了一下, 尝试着继续前行...…

将公平注入AI:机器学习模型即使在不公平数据上训练也能产生公平输出

来源:ScienceAI编译:绿萝如果使用不平衡的数据集训练机器学习模型,比如一个包含远多于肤色较浅的人的图像的数据集,则当模型部署在现实世界中时,该模型的预测存在严重风险。但这只是问题的一部分。麻省理工学院的研究人…

使用ngModel创建组件

angular/forms里有个接口用来实现支持[(ngModel)],具体可查ControlValueAccessor,这边还未深入理解只是为了开发组件而初步了解 interface ControlValueAccessor {writeValue(obj: any): voidregisterOnChange(fn: any): voidregisterOnTouched(fn: any)…

制定城市大脑建设标准应遵循的十条原则探讨

作者:刘锋本文发表于2022年3月《中国建设信息化杂志》2015以来,城市大脑被提出并成为前沿科技和智慧城市建设领域的新热点。到2022年,全国已经有包括北京、上海、杭州、深圳、郑州、呼和浩特、合肥等数百个城市宣布建设城市大脑的规划。有包括…

图灵测试,时至今日还有意义吗?

来源:学术头条我们必须承认,机器运行时的很多中间状态,是在设计初始指令时无法预见的。机器自己也会感悟出很多知识。在这种情況下,我们有必要将机器视为智能的。艾伦图灵图灵测试由人工智能之父—艾伦图灵提出,指测试…

AI科普微视频丨深度学习如何帮助自动驾驶

来源:中国人工智能学会人工智能是如何产生的?人工智能的发展为什么充满曲折?为什么说图灵是人工智能之父?为加大AI科普力度,推动文化传播,中国人工智能学会推出了“AI科普微视频”栏目,以每期2~…

在新的数学证明中,人工智能取胜

来源:ScienceAI编辑:绿萝一个以 AlphaGo 等人工智能系统为原型的新计算机程序解决了组合学和图论中的几个未解决问题。去年 3 月,爱荷华州立大学(Iowa State University)的数学家 Leslie Hogben 和 Carolyn Reinhart 收…

day44-前端知识之HTML内容

什么是前端?什么是后端? # 任何与用户直接打交道的操作界面都可以称之为前端,前端跟python没有任何关系 比如:电脑界面,手机界面,平板界面# 暂时先理解成 幕后操作者(不直接与用户打交道)为什么要学前端? 因为全栈开发工程师就是同时懂前端和后端 1.信心满满 老子一定能学会…

车路协同让城市更智慧

来源:深城物联在高速发展的现代社会,纷繁复杂的城市道路交织成奔腾不息的交通动脉。今年,全国政协委员、百度董事长兼首席执行官李彦宏在提案中关注“智能交通”“自动驾驶”。在新一代信息技术不断发展的背景下,汽车与城市道路的…

gin-jwt对API进行权限控制

前言 之前文章简单介绍了如何运行ginvue的前后端分离开源项目,该项目是学习了Gin实践教程后结合vue-element-admin写的,该教程讲得很详细,适合入门Gin。本篇文章将介绍ginvue的前后端分离开源项目中如何使用gin-jwt对API进行权限验证。 安装g…

Michael Brostein 最新几何深度学习综述:超越 WL 和原始消息传递的 GNN

来源:前沿科技编译:OGAI编辑:陈彩娴如何突破基于 WL 测试和消息传递机制的 GNN 的性能瓶颈?且看几何深度学习旗手、牛津大学教授 Michael Brostein 如是说。图可以方便地抽象关系和交互的复杂系统。社交网络、高能物理、化学等研究…