自然语言处理的十个发展趋势

转载自  哈工大刘挺教授:自然语言处理的十个发展趋势

近日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大开幕。

本次大会的第一场分论坛讨论是关于语言智能领域的八大问题。讨论期间,哈尔滨工业大学刘挺教授对自然语言处理的发展趋势做了一次精彩的归纳,他把这里的趋势分成了十个方面。

哈尔滨工业大学教授刘挺

趋势1:语义表示——从符号表示到分布表示

自然语言处理一直以来都是比较抽象的,都是直接用词汇和符号来表达概念。但是使用符号存在一个问题,比如两个词,它们的词性相近但词形不匹配,计算机内部就会认为它们是两个词。举个例子,荷兰和苏格兰这两个国家名,如果我们在一个语义的空间里,用词汇与词汇组合的方法,把它表示为连续、低维、稠密的向量的话,就可以计算不同层次的语言单元之间的相似度。这种方法同时也可以被神经网络直接使用,是这个领域的一个重要的变化。

从词汇间的组合,到短语、句子,一直到篇章,现在有很多人在做这个事,这和以前的思路是完全不一样的。

有了这种方法之后,再用深度学习,就带来了一个很大的转变。原来我们认为自然语言处理要分成几个层次,但是就句法分析来说,它是人为定义的层次,那它是不是一定必要的?这里应该打一个问号。

实际工作中,我们面临着一个课题——信息抽取。我之前和一个单位合作,初衷是我做句法分析,然后他们在我的基础上做信息抽取,相互配合,后来他们发表了一篇论文,与初衷是相悖的,它证明了没有句法分析,也可以直接做端到端的直接的实体关系抽取,

这很震撼,不是说现在句法分析没用了,而是我们认为句法分析是人为定义的层次,在端到端的数据量非常充分,可以直接进行信息抽取的时候,那么不用句法分析,也能达到类似的效果。当端到端的数据不充分时,才需要人为划分层次。

趋势2:学习模式——从浅层学习到深度学习

浅层到深层的学习模式中,浅层是分步骤走,可能每一步都用了深度学习的方法,实际上各个步骤是串接起来的。直接的深度学习是一步到位的端到端,在这个过程中,我们确实可以看到一些人为贡献的知识,包括该分几层,每层的表示形式,一些规则等,但我们所谓的知识在深度学习里所占的比重确实减小了,主要体现在对深度学习网络结构的调整。

趋势3:NLP平台化——从封闭走向开放

以前我们搞研究的,都不是很愿意分享自己的成果,像程序或是数据,现在这些资料彻底开放了,无论是学校还是大企业,都更多地提供平台。NLP领域提供的开放平台越来越多,它的门槛也越来越降低。

语音和语言其实有很大的差别,我认识的好几位国内外的进入NLP的学者,他们发现NLP很复杂,因为像语音识别和语音合成等只有有限的问题,而且这些问题定义非常清晰。但到了自然语言,要处理的问题变得纷繁复杂,尤其是NLP和其他的领域还会有所结合,所以问题非常琐碎。

趋势4:语言知识——从人工构建到自动构建

 

AlphaGo告诉我们,没有围棋高手介入他的开发过程,到AlphaGo最后的版本,它已经不怎么需要看棋谱了。所以AlphaGo在学习和使用过程中都有可能会超出人的想像,因为它并不是简单地跟人学习。

美国有一家文艺复兴公司,它做金融领域的预测,但是这个公司不招金融领域的人,只是招计算机、物理、数学领域的人。这就给了我们一个启发,计算机不是跟人的顶级高手学,而是用自己已有的算法,去直接解决问题。

但是在自然语言处理领域,还是要有大量的显性知识的,但是构造知识的方式也在产生变化。比如,现在我们开始用自动的方法,自动地去发现词汇与词汇之间的关系,像毛细血管一样渗透到各个方面。

趋势5:对话机器人——从通用到场景化

最近出现了各种图灵测试的翻版,就是做知识抢答赛来验证人工智能,从产学研应用上来讲就是对话机器人,非常有趣味性和实用价值。

这块的趋势在哪里?我们知道,从Siri刚出来,国内就开始做语音助手了,后来语音助手很快下了马,因为它可以听得到但是听不懂,导致后面的服务跟不上。后来国内把难度降低成了聊天,你不是调戏Siri吗,我就做小冰就跟你聊。但是难度降低了,实用性却跟不上来,所以在用户的留存率上,还是要打个问号。

现在更多的做法和场景结合,降低难度,然后做任务执行,即希望做特定场景时的有用的人机对话。在做人机对话的过程中,大家热情一轮比一轮高涨,但是随后大家发现,很多问题是由于自然语言的理解没有到位,才难以产生真正的突破。

趋势6:文本理解与推理——从浅层分析向深度理解迈进

Google等都已经推出了这样的测试机——以阅读理解作为一个深入探索自然语言理解的平台。就是说,给计算机一篇文章,让它去理解,然后人问计算机各种问题,看计算机是否能回答,这样做是很有难度的,因为答案就在这文章里面,人会很刁钻地问计算机。所以说阅读理解是现在竞争的一个很重要的点。

趋势7:文本情感分析——从事实性文本到情感文本

多年以前,很多人都在做新闻领域的事实性文本,而如今,搞情感文本分析的似乎更受群众欢迎,这一块这在商业和政府舆情上也都有很好地应用。

趋势8:社会媒体处理——从传统媒体到社交媒体

相应的,在社会媒体处理上,从传统媒体到社交媒体的过渡,情感的影响是一方面,大家还会用社交媒体做电影票房的预测,做股票的预测等等。

但是从长远的角度看,社会、人文等的学科与计算机学科的结合是历史性的。比如,在文学、历史学等学科中,有相当一部分新锐学者对本门学科的计算机的大数据非常关心,这两者在碰撞,未来的前景是无限的,而自然语言处理是其中重要的、基础性的技术。

趋势9:文本生成——从规范文本到自由文本

文本生成这两年很火,从生成古诗词到生成新闻报道到再到写作文。这方面的研究价值是很大的,它的趋势是从生成规范性的文本到生成自由文本。比如,我们可以从数据库里面生成一个可以模板化的体育报道,这个模板是很规范的。然后我们可以再向自由文本过渡,比如写作文。

趋势10:NLP+行业——与领域深度结合,为行业创造价值

最后是谈与企业的合作。现在像银行、电器、医药、司法、教育、金融等的各个领域对NLP的需求都非常多。

我预测NLP首先是会在信息准备的充分的,并且服务方式本身就是知识和信息的领域产生突破。还比如司法领域,它的服务本身也有信息,它就会首先使用NLP。NLP最主要将会用在以下四个领域,医疗、金融、教育和司法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/324765.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringAOP的Aspectj方式*

SpringAOP的Aspectj介绍 问题: 目前我们已经能够使用SpringAOP的SchemaBased方式来实现功能扩展。在使用SchemaBased方式实现功能扩展时,发现一个扩展代码就需要声明对应的实现了指定的接口的类,这样造成代码的结构体系过于繁杂。一个通知一个类。 解决…

拥抱.NET Core系列:依赖注入(1)

前言 DIP、IoC、DI 说起DI不得不提IoC这个模式,很多人会把DI和IoC混为一谈,但其实这两者是概念和实现的关系。 依赖倒置原则(DIP):软件设计原则,要依赖于抽象,不要依赖具体实现。 控制反转&…

来自学长同学分享的学习方法

点击上方蓝色关注我们!本文原创:陈浴森同学在科技高度发展的今天,计算机在生活中的作用越来越突出。在学校这一年多的学习当中,我总结了不少的经验,让我在以后的学习当中受益匪浅。一开始没学编程的时候,看…

训练集样本不平衡问题对CNN的影响

转载自 训练集样本不平衡问题对CNN的影响 训练集样本不平衡问题对CNN的影响 本文首发于知乎专栏“ai insight”! 卷积神经网络(CNN)可以说是目前处理图像最有力的工具了。 而在机器学习分类问题中,样本不平衡又是一个经常遇到…

银行转账案例

[1] 案例需求 用户访问登录页面,在页面中输入用户名和密码点击登录,登录成功后 进入到主页中。如果登录败,则在登录页面中提示用户用户名或密码错误。在主页面中,用户在填写银行转账信息,包括:转账账户,转账…

20级、19级 | 一天一瞬间!【日更】

点击上方蓝色关注我们!欢迎来到今天的一天一瞬间专栏今天是2020年09月08日,天气状况:炎热。19级目前还是上午上课下午补课,补课私下里和我说,班内学生表现都不错,听罢,甚是开心,不管…

一张图看懂小程序全生态

6月9日小程序发布整半年,这半年里,小程序接连经历了:受追捧——遇冷——质疑——趋于理性的过程。我们对小程序这半年来的产业发展做了全面的梳理,从中可以发现,小程序已俨然形成了自己的生态体系,这一生态…

自然语言处理中的Attention Model:是什么以及为什么[一]

转载自 自然语言处理中的Attention Model:是什么以及为什么[一] 自然语言处理中的Attention Model:是什么以及为什么[一] 1、前言 要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时…

204787 ,194787 |0001 1131 0001 4226 7035 ![2480 ]

点击上方蓝色关注我们!0006 6143 0037 7139 ,2598 4192 0007 7240 0681 1331 0226 ?6849 ?0784 4104 6943 4149 2418 2345 5116 ,7119 0354 0055 3089 1835 ,5261 1783 0250 2601 0110 0171 ,6290 0138 4972 1421 0055 7820 0087 8010 0138 4104 ?1927 1927 ,076…

DDD理论学习系列(9)-- 领域事件

1. 引言 A domain event is a full-fledged part of the domain model, a representation of something that happened in the domain. Ignore irrelevant domain activity while making explicit the events that the domain experts want to track or be notified of, or whi…

ssl1127-方程的解数【HASH,dfs】

前言 我只是凑数的。 正题 输入输出(建议无视) Input 第1行包含一个整数n。第2行包含一个整数M。第3行到第n2行,每行包含两个整数,分别表示ki和pi。两个整数之间用一个空格隔开。第3行的数据对应i1,第n2行的数据对应…

自然语言处理中的Attention Model:是什么以及为什么[二]

转载自 自然语言处理中的Attention Model:是什么以及为什么[二] 自然语言处理中的Attention Model:是什么以及为什么[二] 1、Attention Model 图一见下: 图1中展示的Encoder-Decoder模型是没有体现出“注意力模型”的,所以可以…

SpringAOP之代理设计模式

[1]设计模式: 概念: 设计模式其实就是代码的一种结构的设计思路。 好处: 增加代码健壮性 易修改性 可扩展性 设计模式的种类: 三大种类: 建造类设计模式 结构类设计模式 行为类设计模式 参考网址: http://baijiahao.baidu.com/s?id1639156298714178350&wfrspider&forp…

教师节快乐!

点击上方蓝色关注我们!今天是个特殊的节日,教师节,从昨天开始就有学生给我发教师节祝福了……诺,发就发了吧,还害羞!早上一醒来,就看到同学们在群里发祝福,心理美滋滋的。还有直接改…

如何利用.NET Core搭建跨平台的控制台应用程序

尽管传统意义上来说,.NET是只面向Windows的、闭源的专有平台,然而,传统观念即将被颠覆。新的开源跨平台的.NET Core已经开启,意味着你可以在任意平台写C#或.NET,然后在Windows、Linus和macOS运行。 这个新的.NET平台正…

自然语言处理中CNN模型几种常见的Max Pooling操作

转载自 自然语言处理中CNN模型几种常见的Max Pooling操作 自然语言处理中CNN模型几种常见的Max Pooling操作 CNN是目前自然语言处理中和RNN并驾齐驱的两种最常见的深度学习模型。 图1展示了在NLP任务中使用CNN模型的典型网络结构。 一般而言,输入的字或者词用…

SpringTX

文章目录SpringTX的介绍SpringTX的使用代码示例声明式事务中属性解释SpringBoot中AOP事务配置SpringTX的介绍 问题: 在学习了Spring整合mybatis后,我们可以直接从Spring容器中获取mapper层的实例化对象完成数据库操作。而在业务层方法中很多时候因为业务…

详细整理分层开发步骤!

不点蓝字,我们哪来故事?一、创建数据库,在数据库中创建表二、创建java项目(起名要有意义,eg:petSys)三、在项目中新建包,包名为:cn.bdqn.petSys.entity四、在cn.bdqn.pet…

.NET 跨平台界面框架和为什么你首先要考虑再三

现在用 C# 来开发跨平台应用已经有很成熟的方案,即共用非界面代码,而每个操作系统搭配特定的用户界面代码。这个方案的好处是可以直接使用操作系统原生的控件和第三方控件,还能够和操作系统深度集成。 这里的深度集成主要是指一些 Windows 专…

seq2seq中的beam search算法过程

转载自 seq2seq中的beam search算法过程 首先说明在sequence2sequence模型中,beam search的方法只用在测试的情况,因为在训练过程中,每一个decoder的输出是有正确答案的,也就不需要beam search去加大输出的准确率。 假设现在我…