从语言学到深度学习NLP,一文概述自然语言处理

来源:萤火虫沙龙2

概要:自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注。


自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注。它已经应用于许多如机器翻译、垃圾邮件检测、信息提取、自动摘要、医疗和问答系统等领域。本论文从历史和发展的角度讨论不同层次的 NLP 和自然语言生成(NLG)的不同部分,以呈现 NLP 应用的各种最新技术和当前的趋势与挑战。


1 前言


自然语言处理(NLP)是人工智能和语言学的一部分,它致力于使用计算机理解人类语言中的句子或词语。NLP 以降低用户工作量并满足使用自然语言进行人机交互的愿望为目的。因为用户可能不熟悉机器语言,所以 NLP 就能帮助这样的用户使用自然语言和机器交流。


语言可以被定义为一组规则或符号。我们会组合符号并用来传递信息或广播信息。NLP 基本上可以分为两个部分,即自然语言理解和自然语言生成,它们演化为理解和生成文本的任务(图 1)。


图 1:NLP 的粗分类


语言学是语言的科学,它包括代表声音的音系学(Phonology)、代表构词法的词态学(Morphology)、代表语句结构的句法学(Syntax)、代表理解的语义句法学(Semantics syntax)和语用学(Pragmatics)。


NLP 的研究任务如自动摘要、指代消解(Co-Reference Resolution)、语篇分析、机器翻译、语素切分(Morphological Segmentation)、命名实体识别、光学字符识别和词性标注等。自动摘要即对一组文本的详细信息以一种特定的格式生成一个摘要。指代消解指的是用句子或更大的一组文本确定哪些词指代的是相同对象。语篇分析指识别连接文本的语篇结构,而机器翻译则指两种或多种语言之间的自动翻译。词素切分表示将词汇分割为词素,并识别词素的类别。命名实体识别(NER)描述了一串文本,并确定哪一个名词指代专有名词。光学字符识别(OCR)给出了打印版文档(如 PDF)中间的文字信息。词性标注描述了一个句子及其每个单词的词性。虽然这些 NLP 任务看起来彼此不同,但实际上它们经常多个任务协同处理。


2 NLP 的层级


语言的层级是表达 NLP 的最具解释性的方法,能通过实现内容规划(Content Planning)、语句规划(Sentence Planning)与表层实现(Surface Realization)三个阶段,帮助 NLP 生成文本(图 2)。


图 2:NLP 架构的阶段


语言学是涉及到语言、语境和各种语言形式的学科。与 NLP 相关的重要术语包括:


  • 音系学


  • 形态学


  • 词汇学


  • 句法学


  • 语义学


  • 语篇分析


  • 语用学


3 自然语言生成


NLG 是从内在表征生成有含义的短语、句子和段落的处理过程。它是 NLP 的一部分,包括四个阶段:确定目标、通过场景评估规划如何实现目标、可用的对话源、把规划实现为文本,如下图 3。生成与理解是相反的过程。


图 3:NLG 的组件


4 NLP 的应用


NLP 可被他应用于各种领域,例如机器翻译、垃圾邮件检测、信息提取等。在这一部分,该论文对以下 NLP 的应用进行了介绍:


  • 机器翻译


  • 文本分类


  • 垃圾邮件过滤


  • 信息提取


  • 自动摘要


  • 对话系统


  • 医疗


5 深度学习中的 NLP


以上内容对 NLP 进行了基础的介绍,但忽略了近年来深度学习在 NLP 领域的应用,因此我们补充了北京理工大学的一篇论文。该论文回顾了 NLP 之中的深度学习重要模型与方法,比如卷积神经网络、循环神经网络、递归神经网络;同时还讨论了记忆增强策略、注意力机制以及无监督模型、强化学习模型、深度生成模型在语言相关任务上的应用;最后还讨论了深度学习的各种框架,以期从深度学习的角度全面概述 NLP 发展近况。


如今,深度学习架构、算法在计算机视觉、模式识别领域已经取得惊人的进展。在这种趋势之下,近期基于深度学习新方法的 NLP 研究有了极大增长。


图4:2012 年-2017 年,在 ACL、EMNLP、EACL、NAACL 会议上呈现的深度学习论文数量增长趋势。


十几年来,解决 NLP 问题的机器学习方法都是基于浅层模型,例如 SVM 和 logistic 回归,其训练是在非常高维、稀疏的特征上进行的。在过去几年,基于密集向量表征的神经网络在多种 NLP 任务上都产生了优秀成果。这一趋势由词嵌入与深度学习方法的成功所兴起。深度学习使得多层级的自动特征表征的学习成为了可能。传统的基于机器学习方法的 NLP 系统极度依赖手写特征,既耗费时间,又总是不完整。


在 2011 年,Collobert 等人的论文证明简单的深度学习框架能够在多种 NLP 任务上超越最顶尖的方法,比如在实体命名识别(NER)任务、语义角色标注 (SRL)任务、词性标注(POS tagging)任务上。从此,各种基于深度学习的复杂算法被提出,来解决 NLP 难题。


这篇论文回顾了与深度学习相关的重要模型与方法,比如卷积神经网络、循环神经网络、递归神经网络。此外,论文中还讨论了记忆增强策略、注意机制以及无监督模型、强化学习模型、深度生成模型在语言相关任务上的应用。


在 2016 年,Goldberg 也以教程方式介绍过 NLP 领域的深度学习,主要对分布式语义(word2vec、CNN)进行了技术概述,但没有讨论深度学习的各种架构。这篇论文能提供更综合的思考。



摘要:深度学习方法利用多个处理层来学习数据的层级表征,在许多领域获得了顶级结果。近期,在自然语言处理领域出现了大量的模型设计和方法。在此论文中,我们回顾了应用于 NLP 任务中,与深度学习相关的重要模型、方法,同时概览了这种进展。我们也总结、对比了各种模型,对 NLP 中深度学习的过去、现在与未来提供了详细理解。


图 2:一个 D 维向量的分布式向量表达,其中 D << V,V 是词汇的大小。


图 3:Bengio 等人 2003 年提出的神经语言模型,C(i) 是第 i 个词嵌入。


图 4:CBOW(continuous bag-of-words)的模型


表 1:框架提供嵌入工具和方法


图 5:Collobert 等人使用的 CNN 框架,来做词级别的类别预测



图 6:在文本上的 CNN 建模 (Zhang and Wallace, 2015)


图 7:4 个 7-gram 核的 Top7 -grams,每个核对一种特定类型的 7-gram 敏感 (Kim, 2014)


图 8:DCNN 子图。有了动态池化,一顶层只需要小宽度的过滤层能够关联输入语句中离得很远的短语 (Kalchbrenner et al., 2014)。


图 9:简单的 RNN 网络


图 10:LSTM 和 GRU 的示图 (Chung et al., 2014)


图 11:不同单元类型关于迭代数量(上幅图)和时钟时间(下幅图)的训练、验证集学习曲线。其中 y 轴为对数尺度描述的模型负对数似然度。


图 12:LSTM 解码器结合 CNN 图像嵌入器生成图像描述 (Vinyals et al., 2015a)


图 13:神经图像 QA (Malinowski et al., 2015)


图 14:词校准矩阵 (Bahdanau et al., 2014)


图 15:使用注意力进行区域分级 (Wang et al., 2016)


图 16:特定区域语句上的注意模块专注点 (Wang et al., 2016)


图 17:应用于含有「but」语句的递归神经网络 (Socher et al., 2013)


图 18:基于 RNN 的 AVE 进行语句生成(Bowman et al., 2015)


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中国石油大学华东c语言答案全集,【2019年整理】中国石油大学华东C语言习题答案.pdf...

C 语言复习题【设计型】5.1 输出一行星号编写程序在一行中输出 N 个星号。输入&#xff1a; N 值输出&#xff1a; 一行中 N个星号#includeint main(){int a,i;scanf("%d",&a);for(i1;i<a;i)printf("*");printf("\n");return 0;}【设计型…

特老的文章:三层应该怎么划分。不知大家还有用否

可以用这样的思想&#xff1a; 最初的应用是单机&#xff0c;数据和功能都放在一台机器上。随着应用向工作组模式发展中&#xff0c;人们迫切需要 调用彼此的数据&#xff0c;也调用彼此的功能&#xff0c;这样人们就不用重复录入数据&#xff0c;程序员也不须重复写 功能。数据…

Guava RateLimiter限流原理解析

来源&#xff1a;https://zhuanlan.zhihu.com/p/60979444 限流是保护高并发系统的三把利器之一&#xff0c;另外两个是缓存和降级。限流在很多场景中用来限制并发和请求量&#xff0c;比如说秒杀抢购&#xff0c;保护自身系统和下游系统不被巨型流量冲垮等。 限流的目的是通过…

脑洞大开:未来二十年将兴起的88个微型产业

来源&#xff1a;资本实验室概要&#xff1a;目前&#xff0c;我们正在进入一个指数级技术变革的时代。这个时代既催生出前所未有的科技巨头&#xff0c;其实也催生了一个微型创新的新时代。目前&#xff0c;我们正在进入一个指数级技术变革的时代。这个时代既催生出前所未有的…

并查集算法c语言版,并查集及其C程序实现.doc

并查集及其C程序实现等价关系与等价类从数学上看&#xff0c;等价类是一个对象(或成员)的集合&#xff0c;在此集合中的所有对象应满足等价关系。若用符号"≡"表示集合上的等价关系&#xff0c;那么对于该集合中的任意对象x,y, z&#xff0c;下列性质成立&#xff1a…

Web 服务策略断言语言 (WS-PolicyAssertions)

原文&#xff1a;http://www.microsoft.com/china/msdn/library/webservices/webservices/WebServicesPolicyAssertionsLanguage(WS-PolicyAssertions).mspxWeb 服务策略断言语言 (WS-PolicyAssertions) 发布日期&#xff1a; 4/26/2004| 更新日期&#xff1a; 4/26/2004版本 1…

周志华:严肃的研究者就不该去触碰强人工智能

来源&#xff1a;知识分子概要&#xff1a;关于人工智能&#xff0c;长期存在两种不同的目标或者理念。关于人工智能&#xff0c;长期存在两种不同的目标或者理念。一种是希望借鉴人类的智能行为&#xff0c;研制出更好的工具以减轻人类智力劳动&#xff0c;一般称为“弱人工智…

几种限流器(RateLimiter)原理与实现

来源&#xff1a;https://blog.csdn.net/netyeaxi/article/details/104270337 限流器(RateLimiter)主要有两种算法&#xff1a; 漏桶算法 令牌桶算法 它们都是网络世界中流量整形&#xff08;Traffic Shaping&#xff09;或速率限制&#xff08;Rate Limiting&#xff09;时经…

c语言如何随机选择入口,c语言随机排列-----适用于初学者

本程序只是实现了基本的数字随机排列&#xff0c;如有不懂&#xff0c;留言提问。。。// 随机排序.cpp : 定义控制台应用程序的入口点。//#include "stdafx.h"#include "time.h"#include "stdio.h"#include "stdlib.h"int _tmain(int …

The Best and the Worst

Joe Sanders has the most beautiful garden in our town. Nearly everybody enters for “The Nicest Garden Competition” each year,but Joe wins every time.Bill Friths garden is larger than Joes.Bill works harder than Joe and grows more flowlers and vegetables,…

guava限流器RateLimiter原理及源码分析

来源&#xff1a;https://www.cnblogs.com/zhandouBlog/p/11743660.html 前言 RateLimiter是基于令牌桶算法实现的一个多线程限流器&#xff0c;它可以将请求均匀的进行处理&#xff0c;当然他并不是一个分布式限流器&#xff0c;只是对单机进行限流。它可以应用在定时拉取接…

185页深度报告 扒一扒AI金融的老底【附下载】

来源&#xff1a;智东西概要&#xff1a;2016年&#xff0c;中国爆出8家独角兽&#xff0c;总估值964亿美元位冠全球&#xff1b;2017年&#xff0c;毕马威全球百佳金融科技企业前三甲&#xff0c;蚂蚁金服、众安保险、趣店&#xff0c;皆来自中国&#xff1b;过往两年&#xf…

夹娃娃动画Android,手机模拟抓娃娃

手机模拟抓娃娃让你通过手机足不出户也能感受娃娃机的乐趣,萌趣的卡通形象,清新治愈的设计风格,简单上手的玩法,赶快加入进来冲击最高分吧,点击下载手机模拟抓娃娃开始你的挑战&#xff01;手机模拟抓娃娃介绍手机模拟抓娃娃游戏是一款模拟进行的真人在线抓娃娃的掌上控制的休闲…

Inline Method(内联函数)

一个函数的本体与名称同样清楚易懂 int getRating() {return moreThanFiveLateDeliveries() ? 2 : 1; }boolean moreThanFiveLateDeliveries() {return numberOfLateDelivers > 5; } 重构后 int getRating() {return (numberOfLateDelivers > 5) ? 2 : 1; }

XML 简单操作

<?xml:namespace prefix o /> <?xml version"1.0" encoding"gb2312"?><bookstore> <book genre"fantasy" ISBN"2-3631-4"> <title>Oberons Legacy</title> <author>Corets, Ev…

android友盟错误日志,Taro(React-native)集成友盟错误日志分析U-App移动统计

1、先去友盟官网注册应用&#xff0c;获取到appkey&#xff0c;友盟移动统计分析U-App&#xff0c;这个步骤就不贴出来了&#xff0c;需要注意的是ios和Android 不能使用同一个appkey&#xff0c;需要分别创建两个应用&#xff0c;应用名称可以在后面加上平台名称&#xff0c;例…

2018年中国新零售市场研究报告——概念、模式与案例【附下载】

来源&#xff1a;亿欧概要&#xff1a;“新零售” 之“新”在于顺势下的“变化”&#xff0c;不应该局限于“阿里巴巴的新零售”。报告尝试从一个更宽广的视角&#xff0c;对当前零售业变化的背景和各种驱动因素进行分析&#xff0c;总结当下时间段零售行业参与者的新动作&…

[导入]ASP.NET 配置节架构

ASP.NET 配置节架构文章来源:http://blog.csdn.net/21aspnet/archive/2004/11/04/167417.aspx转载于:https://www.cnblogs.com/zhaoxiaoyang2/archive/2004/11/05/816261.html

重构--思维导图

#原图 System.out.println("https://www.processon.com/view/60fa8c441e085366ea4c2b9e?fromnew1");

Android代码导出数据库,导入/导出到android sqlite数据库

我看过几篇关于如何在android中导入和导出数据库的帖子,我找到了这些代码,但我似乎无法使它工作.我收到错误java.io.filenotfoundexception / storage / sdcard0 / BackupFolder / DatabaseName&#xff1a;打开失败的ENOENT(没有这样的文件或目录).我改变了一些东西,但我仍然没…