NLP顶级专家Dan Roth :自然语言处理领域近期的任务和主要应用

来源:AI科技大本营

概要:1月28日消息,《麻省理工科技评论》新兴科技峰会EmTech China在北京召开,营长也受邀参加,会上有多位人工智能领域的重磅大佬出没,Dan Roth 就是其中一位。


1月28日消息,《麻省理工科技评论》新兴科技峰会EmTech China在北京召开,营长也受邀参加,会上有多位人工智能领域的重磅大佬出没,Dan Roth 就是其中一位。


说起Dan Roth,他可是全球自然语言处理领域的顶级专家,宾夕法尼亚大学计算机和信息科学系的讲席教授。他致力于通过机器学习和推理的方法帮助机器理解自然语言。也是 AAAS、ACL、AAAI 和 ACM 的会士,曾在多个重要会议上担任程序主席一职。2017 年,他因“在自然语言理解、机器学习和推理领域中做出重大的概念和理论创新”而获得国际人工智能联合会议(IJCAI)颁发的约翰·麦卡锡奖。Dan Roth 在哈佛大学获得博士学位,并曾在伊利诺伊大学担任教授。他曾开发出 SNoW 等多种应用广泛的自然语言处理工具。


今天Dan Roth教授为我们带来了题为“利用非结构化数据——AI的崛起”的演讲,为我们讲解了自然语言处理领域近期的重要任务;为什么非结构化的数据处理很难以及应对措施;自然语言处理领域现阶段的主要应用及挑战等内容。


以下为Dan Roth教授演讲实录,AI 科技大本营做了不改变原意的整理。


NLP领域近期的重要任务


当我们连接wifi的时候,或者当你在下载的时候,会出现一个提示框询问你是否接受用户协议。这是一份很长的文本,那么你要接受吗?可能你会回答,对,我要接受,哪怕这个时候,你还没有读完这份长长的文本。


但是这个文本中会涉及很多问题,比如,它会如何利用我的个人信息?会不会侵害我的隐私?我们需要了解这些知识。这个文本能不能让用户清楚了解这些相关的保密内容呢?我们现在还没有一种稳定的方法可以去了解整个文本的内容,这就是我们现在遇到的问题。这个问题不仅是一个科学上的问题,这些文本关乎我们个人信息的安全性,这是每个人都要面对的问题。


我们接触到的绝大多数数据是非结构性的。从科学领域,再到医学、教育、商业、互联网等等,包括我们的邮件都是非结构性数据。这背后的挑战就是,我们如何去了解这些数据的结构,从而建立一个系统,可以去分析、利用它们,了解其背后的意义。这就是自然语言处理领域近期,尤其是近几年的一个重要任务。


为什么非结构化的数据处理很难?


今天,我来给大家解释一下,为什么非结构性的数据处理这么难?以及我们要采取什么样的措施?


我们从一个简单的故事开始。这是美国二年级学生的一道阅读测试题。有三个名字:Kris  Robin、Kiris和Ms.  Robin,大家觉得他们是同一个人的名字吗?我想大多数人都觉得不是。为什么不是呢?因为通过阅读理解,大家会觉得其中有一个可能是父亲。虽然这篇文章中没有明确指出这一点,但是大家可以推断出来。这样一道题,有人做对,有人做错,有人可能做的很快,有人则可能会慢一点。那么我们如何帮助计算机快速地做出选择呢?


其实,这个故事中是有很多陷阱的,有的人会被误导。文章中往往有很多的逻辑词,有很多时间节点,比如说三年前五年前,还有一些定性和定量的词语,让我们可以分析和梳理人物之间的关系。哪怕是一个很简单的问题,我们也需要通过逻辑来梳理。


对计算机而言,这是一个比较复杂的问题。为什么呢?因为这背后有两层逻辑。表层语言层和底层意义层。语言层具有模糊性,因此可能会产生歧义,所以我们需要去了解它的背景,推测它的言外之意来消除这样的歧义。除此之外,语言层还具有多样性。我们想要表达的每一点,都可以通过不同的方式表达出来。这两个特点就使得语意理解非常困难。      


再给大家举一个例子,这里有三篇文本,都提到了芝加哥。


“我来自芝加哥。”


我这么说,它可能没有别的意思。但如果我提到芝加哥乐队,或者芝加哥的足球队,或者提到与它相关的专辑。有的文本中甚至不会直接出现芝加哥,但是这些不同的意义点都可以帮我们表达出芝加哥。


传统的编程能力暂时没办法帮助我们解决语言的模糊性问题。所以我们就要利用最新的机器学习去减少文本中的模糊性,去连接语言中的逻辑,去解读背景知识,去识别不同的词汇,以最终地消解这种模糊性。


机器学习是解决语言中模糊性和多样性一个必要的工具。在过去几年我们也看到了这个领域的发展,我们有不同分类方法来解决文本分类问题,他们依据不同的规则,使用不同的方法。比如我们会通过打上一个标签对文本进行标记,在标记的过程中对文件进行分类。比如可以通过病例来判断一个患者是否可以复诊,这是一种宏观的分类方法。


人工智能能够帮助我们进行分类,在过去的几年它也取得了长足的发展。这其中不仅有机器学习发展的功劳,还有其他的技术,包括计算能力的发展和储存成本的下降,还有新的分类方法的诞生,都促进了机器学习领域的发展。


大家如果关注这个领域,就会发现现在机器学习分类还不是非常的有效。如果把这些方法比喻成一个魔盒的话,我们要了解这个魔盒中需要什么样的工具和内容。我想强调的就是,我们不仅需要找到方法,更应该了解推理的方法,包括了解原因、假设结果和测试方法。因为推理应该是分类之上的逻辑,让同样的类别在一起进行集成。我们要清楚,一个节点是否能推到下一个节点,这样才能更好的解决问题、回答问题和进行优化。


自然语言处理的应用


自然语言处理现在有很多应用。比如,一个律所需要获得所有人的名字,这些人名都包含在邮件中,有不同的分析邮件的方法,我们该如何确定这些人的名单呢?再比如,一个政界人士要研究气候变化方面的问题,他也找到了很多相关的文本,但是该如何全面的梳理,得到大事件的时间表呢?包括教学系统,是否能够帮助我们初中学生更好的解决几何和数学问题?再比如比传统病历包含更多信息的电子病历,我们又该如何利用呢?


我们还没有真正完全解决这些问题,还有许多其他挑战,包括推理,适应性训练,因为现在的模型大多不具有通用性。


以及最大的挑战是——监督。


那什么是监督?或者说神经网络的监督?我们赋予神经网络一个任务,去模拟它,然后收集数据,设置一个模型。但现在我们发现我们的数据不够,没有办法去适配所有的模型。那这种方法就无法升级和进行通用性的应用,它更大程度上是只是一种偶然性的训练。


我们也发现很多的零散信号,我们如何收集这些零散的信号,进行训练模型?传统的文本分类,需要用很多标志性文件去训练一个经典的模型。所以,我们一般要收集一些关键的数据进行标记、进行分类。现在我们考虑的是如何不利用标记的数据,就可以进行快速地分类。但是现在我们不再需要标记数据了,因为我们有对标签的最直接的了解。我们可以直接利用话题、文本进行标记性的重现,以实现对话题的理解。


我还有一个例子,我很喜欢喝咖啡,我想告诉一个机器人这个信息,我就要和它沟通。我要告诉它,我需要什么样的咖啡,让它去了解我的喜好。标准的机器学习的方法,就是为此提供一个有隐喻的文本和很多意义的标记,这样做的成本非常地高昂。换句话说我们要像一个老师一样,通过深入的沟通,为机器人提供信息。这种方法是不可以进行复制的。


现在我们在想为它提供一些非直接性的信号,去训练这个机器人。把这样的信息传递出去,再看一下机器人能做什么事情。如果它按照我的方法和指示做这个咖啡,说明我们的信息传递是非常清晰的,相反的话说明我们的信息传递的不太成功。


因此我们现在的挑战就是能不能依赖于这种描述语言,实现信息的传达。我不会告诉你们怎么做,但是我觉得这样一种方式,能够帮助我们进行下一级的技术革命,而且能够完成一些复杂的任务。


总结来看,今天的自然语言处理依然是一个具有挑战性的领域。机器学习和推理等都是科学工程以及商业进展的核心。尽管还有许多的问题有待解决,但是现在这个领域的现状已经能够帮助我们取得一定的商业成功了。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497382.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【重点!!!】【单调栈】84.柱状图中最大矩形

题目 法1&#xff1a;单调栈[原版] O(N)O(N) 必须掌握算法&#xff01;&#xff01;&#xff01; class Solution {public int largestRectangleArea(int[] heights) {int n heights.length, res 0;int[] leftMin new int[n], rightMin new int[n];Stack<Integer>…

android support library github,Android Support Library 之 夜间模式

原标题&#xff1a;Android Support Library 之 夜间模式前言夜间模式实现方式&#xff1a;1、通过切换theme来实现夜间模式。优点&#xff1a;可以匹配多套主题&#xff0c;并不局限于黑白模式缺点&#xff1a;需要大量定义主题详见博客&#xff1a;http://wuxiaolong.me/2015…

类脑信息处理研究取得进展

来源&#xff1a;AAAI2018概要&#xff1a;近期&#xff0c;中国科学院自动化研究所类脑智能研究中心类脑信息处理&#xff08;BRAVE&#xff09;研究组&#xff0c;在研究员张兆翔的带领下&#xff0c;在借鉴生物神经结构、认知机制与学习特性的神经网络建模与类人学习研究中取…

今天下午爽了一把!

呵呵&#xff0c;很久没这么爽爽地看电影了&#xff0c;一个下午居然连续看了三部电影&#xff01;看到人不想看为止&#xff0c;实在是很过瘾的一个下午啊&#xff01;只是是翘课看的电影&#xff0c;感觉有点不太好&#xff0c;最近真是越来越堕落了。看来要好好克制一下自己…

展望:共融机器人的基础理论与关键技术

来源&#xff1a;《国家科学评论》概要&#xff1a;自1959年工业机器人诞生以来&#xff0c;机器人在机械制造、国防安全、健康服务、科考与医疗等方面发挥出越来越重要的作用。自1959年工业机器人诞生以来&#xff0c;机器人在机械制造、国防安全、健康服务、科考与医疗等方面…

哈萨比斯导师:人工智能媲美人类或需两百年,神经学是条出路

来源&#xff1a;澎湃新闻概要&#xff1a;从围棋到智能驾驶&#xff0c;深度学习缔造了眼下这一波人工智能热潮。在深度学习最热的两大关键词“AlphaGo”和“自动驾驶”&#xff0c;托马索波吉奥&#xff08;Tomaso Poggio&#xff09;都有声名卓著的学生&#xff0c;分别是De…

独家对话英伟达首席科学家:解码AI芯片战局

来源&#xff1a;智东西概要&#xff1a;独家对话Bill Dally博士&#xff0c;深度解读四大AI热点话题。从2017年1月底以来&#xff0c;英伟达的股价又从108美元一路飙升至240多美元&#xff0c;翻了一倍有多。而英伟达股价一飞冲天的背后&#xff0c;正是人工智能技术不断兴盛崛…

[翻译]2005年软件业界推出新产品非官方计划

虽然预测未来的最好方法就是发明(The best way to predict the future is to invent it. -- A. Kay)&#xff0c;但是对于我等现在还没开始发明或者还没有能力发明的人来说&#xff0c;不妨还是看看2005年会软件业界会推出点什么软件&#xff0c;想象一下程序员的生活会不会在2…

Replace Method with Method Object(以函数对象取代函数)

在一个大型函数中&#xff0c;由于局部变量的使用导致无法采用Extract Method class Order...double price() {double primaryBasePrice;double secondaryBasePrice;double teriaryBasePrice;// long computation.....} } 重构&#xff1a;将这个函数放进一个单独对象中&…

2018-2020年中国服务机器人行业深度研究报告

来源&#xff1a;机器人大讲堂概要&#xff1a;目前世界上至少有48个国家在发展机器人&#xff0c;其中25个国家已涉足服务机器人开发。一、报告编写背景和特点北京立德融创智能机器人技术研究院&#xff08;简称“立德研究院”&#xff09;通过对各机器人项目的实施以及自身发…

密歇根大学联合谷歌大脑提出,通过「推断语义布局」实现「文本到图像合成」

原文来源&#xff1a;arXiv作者&#xff1a;Seunghoon Hong、Dingdong Yang、Jongwook Choi、Honglak Lee「雷克世界」编译&#xff1a;嗯~阿童木呀我们通过推断语义布局&#xff08;semantic layout&#xff09;提出了一种新的文本到图像合成&#xff08;text-to-image synthe…

华为5g汽车鸿蒙,网传华为携手极狐造车新图片,搭载5G天线+鸿蒙OS!

【太平洋汽车网 石家庄车市点评频道】(4月6日联合官宣海报)4月7日&#xff0c;继此前华为和极狐联合官宣“上海见”之后&#xff0c;网上再次流传第二波海报&#xff0c;对比第一天的“初次见面”&#xff0c;这一次的内容无疑更加“王炸”。除了文字信息的“自动驾驶新标杆”&…

智能工厂4.0:数字世界和物理世界的融合【附下载】

来源&#xff1a;专知概要&#xff1a;自动化与控制发展至今&#xff0c;智能工厂逐渐获得关注&#xff0c;并成为制造企业追求的目标。自动化与控制发展至今&#xff0c;智能工厂逐渐获得关注&#xff0c;并成为制造企业追求的目标。何为智能工厂&#xff1f;它应该是一个柔性…

Hide Delegate(隐藏“委托关系”)

通过一个委托类来调用另一个对象 重构&#xff1a;在服务类上建立客户所需的所有函数&#xff0c;用以隐藏委托关系。

中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

来源&#xff1a;德先生概要&#xff1a;2016年初&#xff0c;AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究&#xff0c;取得了丰硕的理论和应用成果。深度强化学习进展: 从AlphaGo到AlphaGo Zero唐振韬, 邵坤, 赵冬斌 , 朱圆…

html select 文字居中显示图片,html原生select改造箭头及文字左右居中的一种办法...

使用过原生select做网页开发的人&#xff0c;一定会对select的两个问题痛心疾首&#xff0c;一是箭头没办法使用css改造&#xff0c;二是显示文字没办法左右居中。首先&#xff0c;如果你有足够时间的话&#xff0c;请改用jquerymobile。jquerymobile提供了移动端非常强大的各种…

2018年,这15个领域将会呈现指数级变化

来源&#xff1a;36氪概要&#xff1a;很多趋势将会在2018年继续下去&#xff0c;尤其是呈现指数级增长的多技术融合。很多趋势将会在2018年继续下去&#xff0c;尤其是呈现指数级增长的多技术融合。气候变化依然是一个最紧迫的问题&#xff0c;尤其当我们通过碳预算来解决问题…

中文WAP浏览器WapDisplayer V1.5发布

中文WAP浏览器WapDisplayer V1.5发布 中国被爱可以在线于2005-9-26发布了中文WAP浏览器WapDisplayer V1.5&#xff0c;欢迎大家下载使用。程序简介&#xff1a;WapDisplayer V1.5是一款利用M3Gate控件开发的中文WAP浏览器&#xff0c;除了保留原英文版M3Gate Version 1.2 beta的…

《自然》杂志:超导突触处理信息能力超人脑

来源&#xff1a;科技日报概要&#xff1a;据英国《自然》杂志网站近日报道&#xff0c;美国科学家研制出一款模拟人脑神经中枢处理过程的超导突触&#xff0c;其信息处理速度比人脑更快&#xff0c;而且更高效。据英国《自然》杂志网站近日报道&#xff0c;美国科学家研制出一…

世界首批智能音箱AI IQ测试报告,小米、京东和阿里初步PK

一、小米、京东和阿里智能音箱测试结果&#xff1a;二、测试说明&#xff1a;1.对智能产品进行智商测试&#xff0c;是一项没有先例的科学实验和研究&#xff0c;因此研究会处于不断修正和发展的过程&#xff0c;研究团队并不认为这个测试结果是完全成熟和客观的。希望通过测试…