对话清华教授孙茂松:第三代人工智能要处理“可解释性”问题

640?wx_fmt=jpeg

来源:澎湃新闻

正如人类会综合利用视觉、听觉、触觉、语言等信息,让人工智能(AI)从多角度、多模态、多学科学习自然语言也是清华大学人工智能研究院的目标与任务。

2019年7月1日,清华大学人工智能研究院第八个研究中心:自然语言处理与社会人文计算研究中心(以下简称中心)在校本部FIT楼举行成立仪式。中心主任由清华大学人工智能研究院常务副院长、国家重点基础研究发展计划(973计划)项目首席科学家孙茂松教授担任。

7月3日,澎湃新闻(www.thepaper.cn)记者走进清华园,与孙茂松教授聊了聊这个名字格外长的中心成立的背景、担负的使命、以及当下人工智能的发展、困境与解决方法。

640?wx_fmt=jpeg孙茂松教授接受澎湃新闻(www.thepaper.cn)记者采访

AI诗人、人工智能辅助法官与未来的诺贝尔经济学奖获得者

语言是人类智能的重要标志,在人类文明中的地位与作用毋庸置疑,自然语言处理,通俗地解释就是“让计算机学习人类语言”。清华大学新设立的中心旨在通过加强人工智能的基础研究及其与人文社科学科的交叉合作,建立更强大的机器用知识库,进而提升人工智能对语言的学习和处理的能力。

孙茂松认为,目前人工智能同社会科学和人文科学的结合有两个主要的桥梁,一个是狭义的数据,比如说金融市场上的数据,可根据数据来预测市场行为;另一个就是语言文字形成的文本,比如新闻、消息、用户在社交网络上反映观点和情绪的各种“短信息”等等。

基于人类语言文字这一桥梁,自2015年底起,他指导一个最初以两位本科生为主体的课题小组,通过深度神经网络的方法,让机器对全部古代诗歌进行“阅读”并“理解”,在此基础上,推出了会作诗的AI——“九歌”,使人工智能“跨界”到了文学创作领域。由于公众的关注与参与,到目前为止“九歌”已经产生了差不多400万首诗,“从古流传至今的诗歌总量估计达不到400万首,如果这么想,效果也还不错。”小组目前正在研究现代诗的生成,以期满足大众越来越多样的“作诗要求”。

640?wx_fmt=jpeg

“九歌”在CCTV-1《机智过人》节目上创作出藏头诗

社会人文学科是一个很宽广的概念。除了文学外,今年以来人工智能研究院正在与清华大学法学院合作,在原有的法学基础上更多地加入计算与人工智能的成分。法学院越来越认识到,“计算法学”是未来法学研究的一个发展趋势。孙茂松也提到,近年来最高人民法院领导的案卷卷宗数字化、公开化是计算法学发展的一个重要基础。

当澎湃新闻(www.thepaper.cn)记者问未来是否会有“AI法官”时,孙茂松说,“应该会有‘人工智能辅助法官’。虽然本质上机器的能力肯定超不过优秀的法官,但机器确实有它的长处,比如说它可以快速阅读大量的卷宗,人有时候会判断有片面性、情绪上会有所波动、法官水平也会参差不齐,机器则不会。

孙茂松指出,人工智能目前基于大数据的深层神经网络方法(也叫深度学习方法,见后)有可能为某些社会人文领域带来研究范式的改变。虽然清华人工智能研究院目前刚刚开始进行外汇兑换率预测的研究,但他认为人工智能与金融、经济的深度融合可望带来极具震撼力的成果,一旦深度学习方法被创造性地、系统性地应用到这个领域,甚至“这几年国际上能出一个诺贝尔经济学奖”。

针对金融、经济系统的高度复杂性,孙茂松认为,当把各类相关信息都涵盖进来,并且有高超的手段对这些信息进行“大一统”式的有效处理时,这个复杂系统的可预测性便会显著上升。他举了个例子,“蚂蚁王国有自己的一套运作规律,但这个规律有时会变得非常脆弱,因为可能突然来一个人,啪地来一脚,便给这个王国带来了灭顶之灾。仅仅从蚂蚁的世界来看,这个突发事件是不可预测的。但如果把人的因素包含进来,细致了解这个人的秉性,比如他是否是一个有爱心的人、是否是一名佛教徒等等,他的行为的可预测性就会大大提高,蚂蚁王国的不可预测性也会随之大大降低”。

在孙茂松看来,经典金融学或经济学的研究范式主要是依靠人的理性思辨和求解方程(无论是线性还是非线性方程)。但复杂且庞大的金融和经济系统里充满了不确定性,很多现象难以用方程显式地刻画。但深度学习方法具有高度的非线性性质,在大数据的驱动下,理论上它能隐式地模拟任何复杂的方程,更加有效地处理系统的不确定性。这就使得一种全新的金融学或经济学研究范式的产生成为可能。
把“黑盒子”变成“灰盒子”

640?wx_fmt=jpeg

孙茂松的书架上摆着金融、语言、逻辑等各领域的书籍

“当代人工智能教父”、2018年图灵奖得主约书亚·本吉奥(Yoshua Bengio)认为,人工智能领域在近些年出现巨大变革要归功于 “深度学习”(deep learning)的出现。他在一篇名为《深度学习:人工智能的复兴》的署名文章中说,“近年来,深度学习已经成为了驱动人工智能领域发展的最主要力量,各大信息技术公司在这方面共掷下了数十亿美元的资金。

本吉奥此前接受澎湃新闻(www.thepaper.cn)记者专访时表示,现有的自然语言处理系统掌握了大量的词汇量和语言转换的技巧,但是却并不理解句子的真正含义,机器“会犯一些非常愚蠢的错误,甚至没有两岁小孩的理解能力”。同时他认为,模拟人脑的神经网络以期能够实现类人工智能的机器学习技术,即神经网络技术对于新时代的意义是巨大的。

尽管意义巨大,但目前的深层神经网络系统存在着一个重大不足:给定一个输入,系统给出相应结果的深刻原因对人来说是不透明的,从这个意义上来说,它基本上是一个“黑盒子”。这就导致系统的稳健性会变大打折扣,系统的适用范围也会缩窄。当我们深究机器为什么犯错时(如机器翻译系统为什么把一句话翻成这样、而不翻成那样),机器却无法给出解释,“反正我就翻成这样,你看着用吧。

此外,深度学习最擅长处理的是关联性:当输入“公鸡打鸣”这个词语时,它会自动联想到“太阳升起来了”这句话。这体现了一种关联性,但显然前者不是导致后者的原因。深度学习现在基本上没有因果推理能力。孙茂松说,深度学习只是在统计意义上“觉得”某两个东西是相关的,但两者之间到底有没有逻辑关系,它却浑然不知。

孙茂松进一步阐释,自然语言处理研究面临着同样的难题,实际上,“可解释性”是整个人工智能领域目前面临的困境,也是目前的国际学术研究前沿。研究者们正在努力让这个人工智能“黑盒子”至少变成一个“灰盒子”。孙茂松认为,在自然语言处理方面,知识库的构建或许是一个解决方法。以古诗词写作举例:“灞桥”后接“折柳”,深度学习应该能从诗库中捕捉到这个知识关联,但其它众多知识关联是否都能学到,就不好说了。但如果我们自觉地把跟“灞桥”相关的东西全预先列出来,如“灞水、驿站、销魂、断肠、长安、关中八景、李白、李商隐、孟浩然…”,建立起一个知识图谱,那么,机器就可以根据这个知识图谱比较自觉地去写诗,针对性更强,写诗过程也便具有了一定的可解释性。

根据人工智能研究院院长张钹院士的说法,人工智能在其发展史上已经先后经历了理性主义和经验主义两代。第三代人工智能应该是这两者的完美结合。解决可解释性问题,是其核心研究任务之一。

因为知识天然地具有一定解释性,知识库就带有一种可解释性。

“通专虽应兼顾,而重心所寄, 应在通而不在专”

以人工智能和大数据为标志的第四次工业革命到来之际,国内多所高校开始布局人工智能教育。2017年5月,中国科学院大学成立人工智能技术学院,成为我国人工智能技术领域首个全面开展教学和科研工作的新型学院;2018年,上海交通大学与南京大学先后建立了人工智能研究院与人工智能学院,南京大学还招收了首批人工智能专业本科学生。

而作为中国顶尖的高等学府,清华大学对顶尖人才培养一贯高度重视。2005年设立的计算机科学实验班(因其创始人、“图灵奖”唯一华人获奖者姚期智而得名“姚班”)是全国乃至全球领先的计算机人才培养的摇篮。一流的高等教育有责任助力计算机科学和人工智能达至下一个令人鼓舞的高度,更应该能够给这个时代带来颠覆性的影响。

那么,人工智能本科专业的设置是否必要?人工智能要不要在本科阶段就独立成系? 

“通专虽应兼顾,而重心所寄, 应在通而不在专”,孙茂松用清华大学老校长梅贻琦的一句话为澎湃新闻记者解释了国内顶尖高校对于人工智能本科教育或许应有的态度。在参考了全球名校如MIT(麻省理工学院Massachusetts Institute of Technology)、斯坦福大学、CMU(卡耐基梅隆大学Carnegie Mellon University)等的课程建构后,孙茂松认为人工智能不应贸然独立于计算机科学技术的一级学科。当然,各个高校根据各自不同的情况和需要制定自己的发展策略,也是可以理解的。

“清华主要的还是要稳,没有特殊的需求不要变,一变反而变乱了,两拨人可能无序竞争了。” 整体稳定、积极探索是清华大学在人工智能本科教育上的方针。

今年,清华大学在“姚班”之外新设立了“智班”,全称为“清华学堂人工智能班”,在计算机教育结构大体不变的前提下,这个规模不大的实验班将对人工智能人才、特别是顶尖人才本科阶段的培养进行深度探索。而人工智能研究院的工作主要定位在研究生阶段,特别是博士生阶段的培养。

在本中心之前,清华大学陆续成立了人工智能研究院基础理论研究中心、智能机器人研究中心等七个研究机构。

孙茂松说,这八个中心的核心力量主要对应着人工智能研究的“初心”,也就是研究人的感知和认知。感知最重要的通道是视觉和听觉,所以设立了视觉智能和听觉智能中心;而认知体现人的语言、推理、逻辑、学习的能力,所以设立了基础理论中心、知识智能中心和自然语言处理中心等。再向外探索就是智能人机交互与智能多模态信息交互乃至机器人的相关研究,中心和中心之间是紧密联系、相互合作的。

刚满一周岁的清华人工智能研究院已基本实现了“整合力量、统筹安排”的目标。孙茂松表示,接下来的两个中心会分别以“社交网络大数据”和“人工智能芯片”为关键词。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

验证gpu版pytorch是否可用

import torchtorch.cuda.is_available() Truetorch.cuda.current_device() 0torch.cuda.device(0) <torch.cuda.device object at 0x0000023034332438>torch.cuda.device_count() 1torch.cuda.get_device_name(0) GeForce GTX 1660

oracle instr函数

语法&#xff1a;instr( fatherstr, sonstr [, start_position [, matchtimes ] ] )fatherstr&#xff1a;父字符串。要在此字符串中查找子字符串的位置。sonstr&#xff1a;要在fatherstr中查找的字符串. start_position&#xff1a;代表从fatherstr開始查找的的開始位置。此參…

QT学习笔记(一):VS2013 +QT 5.8 运行、编译问题解决

QT学习笔记&#xff08;一&#xff09;&#xff1a;VS2013 QT 5.8 运行、编译问题解决 jom: E:\C\4.QT\HelloWord\Makefile.Debug [debug\moc_predefs.h] Error 1 ‘cl’ 不是内部或外部命令&#xff0c;也不是可运行的程序 或批处理文件。 jom: E:\C\4.QT\HelloWord\Makefile…

使用清华镜像安装pytorch失败的解决方法

首先添加清华镜像至Anaconda仓库&#xff1a; conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --set show_channel_urls yes …

受精卵或非“生命起始”?网友:教材是不是要改了……

来源&#xff1a;中国新闻网一直以来&#xff0c;科学家们都认为&#xff0c;精卵结合受精以后就是生命。但是&#xff0c;最近中美胚胎学家的一项最新联合研究成果表明&#xff0c;人类受精卵存在两套独立纺锤体&#xff0c;即从精卵结合到发生第一次有丝分裂期间&#xff0c;…

QT学习笔记(二):QT MinGW 和 MSVC 编译方式

QT学习笔记&#xff08;二&#xff09;&#xff1a;QT MinGW 和 MSVC 编译方式 Qt 中有两种方式编译&#xff1a;一种是MinGW &#xff0c;另一种MSVC&#xff0c;是使用两种不同的编译器。 1、MSVC是指微软的VC编译器&#xff1b; 2、MingGW是指是Minimalist GNU on Window…

利用Excel进行成对(配对)T检验

首先在Excel中添加数据分析工具 https://jingyan.baidu.com/article/c275f6ba74b69ee33d7567c8.html 在Excel添加要分析的两组数据&#xff1a; 点击数据——>数据分析&#xff0c;选择t-检验&#xff1a;平均值的成对二样本分析&#xff0c;分别选取两组要分析的数据和输…

垃圾要分类!我们的大脑如何处理垃圾呢?

来源&#xff1a;中国生物技术网最近&#xff0c;垃圾分类已经成了热点话题&#xff0c;但实行这一举措的最终目的还是为了保护我们赖以生存的地球环境。同样&#xff0c;大脑为了维持健康&#xff0c;也专门有一套自己的“垃圾清除系统”&#xff0c;即glymphatic&#xff08;…

Scala模式匹配和类型系统

Scala模式匹配和类型系统 1.模式匹配比java中的switch case强大很多&#xff0c;除了值&#xff0c;类型&#xff0c;集合等进行匹配&#xff0c;最常见的Case class进行匹配&#xff0c;Master.scala有大量的模式匹配。 Case "_"表示不满足上面的所有情况的体验&…

QT学习笔记(三):Qt软件打包发布(QT5.8 _msvc2013_64+Win10_64)

QT学习笔记&#xff08;三&#xff09;&#xff1a;Qt软件打包发布&#xff08;QT5.8 _msvc2013_64Win10_64&#xff09;1.编译方式介绍&#xff1a;2.动态编译方式打包发布QT程序&#xff1a;方法一&#xff1a;手动复制方法二&#xff1a;使用工具问题&解决&#xff1a;环…

贝叶斯用于文档分类

from numpy import *def loadDataSet():# 词条切分后的文档集合&#xff0c;列表每一行代表一个文档postingList [[my, dog, has, flea, please],[not, take, him, to, dog, stupid],[my, is, cute, love, him],[stop, posting, stupid, worthless, garbage],[my, licks, my, …

使用pt-heartbeat检测主从复制延迟

不要用SECONDS_BEHIND_MASTER来衡量MYSQL主备的延迟时间&#xff0c;原因如下&#xff1a; A&#xff1a;备库Seconds_behand_master值是通过将服务器当前的时间戳与二进制日志中的事件的时间戳对比得到的&#xff0c;所以只有在执行事件时才能报告延迟 B&#xff1a;如果备库复…

麦肯锡报告摘译:未来成功城市的14个特征

来源&#xff1a;TOP产业办公研究院【前言】&#xff1a;本文摘译自麦肯锡发布的一份研究报告。报告来源&#xff1a;McKinsey&Company Report: Thriving amid turbulence: Imagining the cities of the future. Authored by Jonathan Woetzel , Vineet Rajadhyaksha , Joe…

编程关键词介绍...

编程关键词介绍&#xff1a; gcc是GUN compiler Collection (GUN编译器套件)&#xff0c;也可以简单理解为编译器&#xff0c;他可以编译多种语言。 GNU是基于Unix开发设计&#xff0c;并且是与Unix兼容的操作系统&#xff0c;该项目由Richard Stallman在1983年创建&#xff…

MATLAB编辑GUI界面

在命令窗口输入&#xff1a;guide 即可进入编辑 若要在GUI界面的一个面板上显示程序中随意给定的字符&#xff1a; 首先创建一个“可编辑文本”&#xff08;位于左侧工具栏&#xff09;&#xff1a; 双击该面板&#xff0c;弹出该面板的工具栏&#xff0c;设置“string”&am…

单个神经元不可靠!这项新研究推翻以往认知,感知的最大限制在于解码过程...

来源&#xff1a;凹非寺“单个神经元不可靠&#xff01;”一项关于神经元的研究&#xff0c;让众人看嗨了。这项研究通过在小鼠身上做实验&#xff0c;先展示了神经元“不靠谱”的一面&#xff1a;单个神经元两次对相同视觉刺激的反应&#xff0c;竟然是不一样的。对于神经元的…

(转)MVC3 类型“System.Web.Mvc.ModelClientValidationRule”同时存在

问题描述&#xff1a;在用vs生成MVC时若使用Internet应用程序为模版&#xff0c;项目建好后重新编译下无法通过&#xff0c;弹出错误&#xff1a; 解决方案&#xff1a;问题出来后&#xff0c;询问了身边很多人都是一头雾水&#xff0c;于是乎各种谷歌和百度&#xff0c;还好功…

QT学习笔记(四):Qt5+MSVC编译 中文字符显示乱码问题解决

QT学习笔记&#xff08;四&#xff09;&#xff1a;Qt5MSVC编译 中文字符显示乱码问题解决问题&#xff1a;1、解决方法一&#xff1a;2、解决方法二&#xff1a;3、解决方法三&#xff1a;4、解决方法四&#xff1a;结果显示&#xff1a;Qt5MSVC编译 中文字符显示乱码。 现在为…

github单独下载某个文件或文件夹

首先下载tortoiseSVN&#xff0c;安装好之后打开github项目的地址&#xff0c;例如https://github.com/rbgirshick/fast-rcnn 单独下载某个文件夹&#xff1a; 如果只需要下载tools这个文件夹&#xff0c; 点进这个文件夹&#xff0c;复制该页面的网址得到https://github.com/…