「自然语言处理」如何快速理解?有这篇文章就够了!

原文来源:codeburst.io

作者:Pramod Chandrayan

「雷克世界」编译:嗯~阿童木呀、我是卡布达


现如今,在更多情况下,我们是以比特和字节为生,而不是依靠交换情感。我们使用一种称之为计算机的超级智能机器在互联网上进行交易和沟通。因此,我们觉得有必要让机器明白我们在说话时是如何对其进行理解的,并且试图用人工智能,一种称之为NLP——自然语言处理技术为它们提供语言。作为一种研究结果,聊天机器人正在成为一种可靠的聊天工具,使用这种非人为依赖的智能工具与人类进行交流。

 

我强烈的感受到:


直到我们的机器学会了解行为和情绪,数据科学家和工程师的工作才完成了一半。与深度学习(ML学科领域)融合的NLP将对这种计算机语言的使用起到关键作用。


什么是NLP


这是一种人工智能方法,给定机器一些人类语言从而使得它们能够与人类进行沟通交流。它涉及使用NLP技术对书面语言进行智能分析,以获取对一组文本数据的见解,如:


1.情绪分析


2.信息提取和检索


3.智能搜索等


它是人工智能和计算语言学的交汇点,能够处理机器和人类自然语言之间的交互,即计算机需要对其进行分析、理解、改变或生成自然语言。NLP帮助计算机机器以各种形式使用自然人类语言进行交流,包括但不限于语音、印刷、写作和签名。


NLP机器学习和深度学习:它们是如何连接的



NLP与机器学习和深度学习密切相关,所有这些都是人工智能领域的分支,如下图所示:它是一个致力于使机器智能化的计算机科学领域。深度学习是一种流行的机器学习技术之一,如回归,K-means等。


机器学习的类型很多,像无监督机器学习这样的经常用于NLP技术中,如LDA(潜在狄利克雷分布,一种主题模型算法)。


为了能够执行任何一个NLP,我们需要深入理解人类使如何处理语言的情感和分析方面。还有各种各样像社交媒体这样的语言数据源,人们直接或间接地分享他们感受到的内容,而这必须通过使用NLP的机器进行智能分析。NLP机器需要建立一个人类推理系统,借助ML技术,它们可以自动执行NLP过程并对其进行扩展。


简而言之,“深度学习与自然语言处理”是相互联系、相互依存的,以构建一个能够像人类一样思考、说话和行动的智能计算机。


Meltwater Group的NLP专家John Rehling在《自然语言处理是如何帮助揭示社交媒体情绪》一文中说,


“通过分析语言的含义,NLP系统扮演着非常重要的角色,如纠正语法,将语音转换为文本,以及在多语言之间自动翻译。”


NLP如何工作


理解NLP的工作原理是非常重要的,因为这样的话,我们就可以将NLP作为一个整体来理解。NLP一般有两个主要组成部分:


1.NLU:自然语言理解


2.NLG:自然语言生成


让我们深入理解NLU


自然语言理解:它涉及的是一种方法论,试图了解如何对馈送给计算机的自然语言赋予一定的相关意义。


在开始时,计算机获得自然语言的输入(自然语言可以是任何语言,它们通过使用和重复在人类中自然进化,而不是有意识的计划或预谋,自然语言可以采用不同的形式,例如语音或签名)。


计算机之后将它们转换成人工语言,如语音识别和/或语音转换文本。在这里我们把数据转换成一个文本形式, NLU过程来理解其中的含义。


HMM:隐马尔可夫模型(NLU示例)


来源:wikipedia


它是一种统计语音识别模型,它可以在预先构建的数学技术的帮助下,将你的语音转换成文本,并试图推断出你所说的语言。


它试图理解你所说的,通过将语音数据分解成一小段特定的时间段,大多数情况下时间是20-20 ms。这些数据集将进一步与预馈语音进行比较,从而进一步解读你在每个语音单位中所说的内容。这里的目的是找到音素(一个最小的语音单位)。然后,机器对一系列这样的音素进行观察,并统计了最可能说出的单词和句子。


不仅如此,NLU会深刻理解每个单词,试图理解它是一个名词还是动词,什么是时态(过去或未来)等。这个过程被定义为POS:词性标注部分(Part Of Speech Tagging)。NLP具有内置的词典和一套与语法预编码相关的协议,这些协议被预编码到它们的系统中,并在处理自然语言数据集时使用它,从而在NLP系统处理人类语音时,编译所说的内容。


NLP系统也有一个词典(词汇表)和一套编码到系统中的语法规则。现代NLP算法使用统计机器,学习将这些规则应用于自然语言,并推断所说话语背后最可能的含义。在考虑诸如具有多个含义的词语(多义词)或具有相似含义的词语(同义词)时,存在一些挑战,但软件开发者在他们的NLU系统中建立了自己的规则,可以通过适当的训练和学习来处理这类问题。


自然语言生成:


与第一阶段(NLU做了大量的努力以理解人类的话语)相比,NLG可以很容易的进行翻译工作,即将计算机的人工语言翻译为有意义的文本,并可以通过文字转语音(tex-to-speech)技术将其转化为可听语音。文本转语音((tex-to-speech))技术通过韵律模型(prosody model)来分析文本,从而确定语言的断句、长短和音调。然后,利用语音数据库,将记录的所有音素汇集在一起,形成一个连贯的语音串。


简而言之,NLP采用NLU和NLG来处理人类自然语言,尤其是处理语音识别领域的人类自然语言,并试图将传递字符串或可听语言作为输出,来理解、编译并推断所说的内容。


NLP在现代语境中的应用:


在这个处于数字革命的电脑时代中,大部分任务需要由人类利用链接物联网的机器来完成。NLP在为媒体、出版、广告、医疗、银行和保险等行业领域建立强大的软件工具方面,发挥了重要作用,从而帮助他们高效快捷地运作。


NLP的一些现代用法:


1.聊天机器人


这是一个被称为机器人的成熟软件,它可以处理任何场景的人物对话。api.ai、微软语音理解智能服务(LUIS)等一些热门的NLP和机器学习平台,可用于研发你的商业聊天机器人。



2.垃圾邮件过滤


来源:yhat

 

你们中的大多数人一定对垃圾邮件并不陌生。Google使用基于NLP的技术来保障你的收件箱清洁、无垃圾邮件。贝叶斯垃圾邮件过滤(Bayesian spam filtering)是一种备受瞩目的技术,它是一种统计技术,基于此,电子邮件中词语的审核通过率根据其在垃圾和非垃圾邮件语料库中的典型事例来确定。


3.机器翻译

 

NLP被越来越多的应用于机器翻译程序当中,这使得一种语言被自动翻译成另一种语言,谷歌是一个将你的文本翻译为所需语言的先驱者。


机器翻译技术所面临的挑战不在于翻译单词,而在于保留句子的含义,这是一个复杂的技术问题,也是NLP的核心。


4.命名实体提取(Named entity extraction)


它用于从给定的项目集合中分离出具有相似性质和属性的项目。例如名字、姓氏、年龄、地理位置、地址、电话号码、电子邮件地址和公司名称等等。命名实体提取(亦称命名实体识别)使挖掘数据变得更加容易。


5.自动汇总


自然语言处理可用于从大段文本中提取可读摘要。例如,我们可以自动总结出一份长篇学术文章的简短摘要。

 

接下来我们将深入介绍一些NLP的技术细节。

 

当自然界与人工相逢的时候,机器就像是一个真正具有生命力的人类一样进入了生活中。

 

NLP技术术语

 

NLP术语

 

•语音体系——关于系统性地组织语音的研究。

 

•形态学——这是一个从基本意义单位中进行单词构建的研究。

 

•语素——语言中意义的基本单位。

 

•语法——它是指单词经过组合排列构成句子,它还涉及在句子和短语中确定单词结构的作用。

 

•语义——它涉及的是单词的含义,以及该如何将单词组合成有意义的短语和句子。

 

•语用学——它涉及的是在不同情况下使用和理解句子以及对句子的解释是如何受到影响的。

 

•话语——它指的是前面的句子如何影响对于下一句的解释的。

 

•常识性知识——它涉及的是对于世界的一般性认识。

 

自然语言处理库(对于开发者而言)

 

NLP库:

 

有许多通用的第三方开源库,开发人员可以使用它们来构建基于NLP的Projects Viz .。

 

•自然语言工具包(NLTK)

 

•Apache OpenNLP

 

•斯坦福大学NLP套件

 

•Gate NLP库

 

自然语言工具包(NLTK)是最通用的自然语言处理(NLP)库。它是用Python编写的,背后有一个很大的社区。

 

NLP实施所涉及的步骤:

 

来源:mediterra-soft


它涵盖了5个主要步骤:

 

•词法分析——它对给定单词的结构进行识别和分析,其中整个文本数据块在词法分析中被分解成段落、句子和词汇。


•解析(句法分析)——它涉及以一种显示单词之间的关系的方式对分析句子中的单词进行语法和单词排列分析,在这个阶段,任何不符合语法正确的句子都被拒绝,例如,“building lives in sita”将不会被语法分析器所接受


•语义分析——对给定的文本进行分析以从中提取意义。它通过对任务域中的语法结构和目标进行分析来完成。语义分析器拒绝不相关的句子,如“hot banana”。


•话语整合——正如我们所知,每个句子都与前一句话相互联系,基于倒数第二句的意义而言,任何句子都变得有意义。同样,它也使得后一句话变得有意义。


•语用分析——在此期间,常识性知识被重新定义了,解释了它们的真实意义到底是什么,它涉及到那些需要常识性知识的语言方面。

 

用图片来解读NLP(点击图片放大):



NLP应用程序:

  


1.光学字符识别


2.语音识别


3.机器翻译


4.自然语言生成


5.情绪分析


6.语义搜索


7.自然语言编程


8.情感计算


9.开发聊天机器人


未来智能实验室致力于研究互联网与人工智能未来发展趋势,观察评估人工智能发展水平,由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

another mysql daemon,[守护进程详解及创建,daemon()使用

一,守护进程概述Linux Daemon(守护进程)是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。它不需要用户输入就能运行而且提供某种服务,不是对整个系统就是对某个用户程序提供服务。Linux系统的大多数服务…

李开复:明年会有一批AI公司倒闭

来源:公众号黑智概要:在北美的四大AI巨头公司中,李开复的总结是:Google有大牛优势;Facebook做得更深,但没有平台化意识;微软在试着聚拢自己的实力;“四大AI公司中,有3家不…

德勤预测2018年9大科技趋势:AR走进普通用户,直播仍然是王道

来源:腾讯科技编辑:Jennie“我们眼下正处在一个临界点,即机器学习将在企业市场加速普及,从而推动改进企业运营,让企业作出更好的决策,并提供增强或全新的产品和服务。”——德勤副总裁保罗萨罗米据外媒报道…

谷歌人工智能检索开普勒望远镜数据后,找到了“迷你太阳系”

“开普勒-90”和太阳系一样拥有八大行星 本文图片均来自 NASA来源:澎湃新闻概要:当地时间12月15日,美国国家航空航天局NASA宣布在“行星猎手”开普勒望远镜的数据库中找到了恒星“开普勒-90”周围的第八颗行星&#xf…

php去除所有标点符号的方法,php如何去除标点符号

php去除标点符号的方法:首先创建一个PHP示例文件;然后通过正则表达式“preg_replace($pattern, , $str);”删除字符串中的中英文标点符号即可。推荐:《PHP视频教程》php正则,删除字符串中的中英文标点符号原理很简单,…

美国的人工智能企业在研发哪些有趣的AI产品?

来源:亿欧概要:本文盘点了美国AI企业的有趣产品,或许能给国内AI创业者和投资人有所启发。同样是AI创业,国内外的打法显然不同。在国内,大部分AI创业公司都在拼主赛道,比如无人驾驶、AI安防、AI医疗、AI教育…

Java技术回顾之JNDI--实例

一、JNDI在Java EE中的应用JNDI 技术是Java EE规范中的一个重要“幕后”角色,它为Java EE容器、组件提供者和应用程序之间提供了桥梁作用:Java EE容器同时扮演JNDI提供者角色,组件提供者将某个服务的具体实现部署到容器上,应用程序…

【观点】智能制造:新时代智能产业革命的基石|王飞跃

来源: 中国科学院自动化研究所概要:以新的理念和新的技术发展新时期的智能制造科技,创新智能产业革命,将是中国从制造大国到制造强国,进而从世界大国到世界强国的必由之道和开路先锋。实体经济,特别是以制造…

matlab连续型随机变量,matlab连续型随机变量的分布.doc

matlab连续型随机变量的分布.doc 连续型随机变量的分布及其数字特征一、基本概念设随机变量X的分布函数为F(x),若存在非负函数f(x),使对任意实数x,有≤X{Pxd}则称X为连续型随机变量,并称f(x)为X的概率密度,它满…

CB Insights发布AI创业公司100榜单 ,7家中国公司上榜,两家二次登榜

来源:36氪概要:近日,硅谷知名数据公司 CB Insights 在美国旧金山发布了第二届全球最强 AI 创业公司榜单AI 100。旷视科技、出门问问、今日头条、英语流利说、优必选、商汤科技以及寒武纪上榜 。近日,硅谷知名数据公司 CB Insights…

深度学习发展简要笔记

来源:非正式组织概要:在Yann LeCun、Yoshua Bengio和Geoffrey Hinton三巨头nature深度学习综述《deep learning》文章中提到,这段期间神经网络模型被主流的计算机视觉和学术界所抛弃。一、前言深度学习的发展大致分为这么几个学期&#xff1a…

数据革命在危机中诞生 援助组织尝试灵活方法拨开战争迷雾

无国界医生组织在安曼为叙利亚提供支持。图片来源:Neil Brandvold来源:科学网概要:每当战争、飓风或其他灾害肆虐时,援助组织面临的最大问题之一就是缺乏可靠的数据。当Issam Salim(化名)讲述他进行的手术时…

德勤2018TMT八大预测:移动互联网迎来二次革命

来源:智东西概要:数万手机AR应用上市,AI芯片打入旗舰手机,数据中心ML芯片多样化,移动数字经济继续开挂。2017年,很多传统TMT巨头面临增长缓趋,于是考虑重资产化追求规模效应,开拓、转…

oracle 中 start tran,The value (30) of MAXTRANS parameter ignored

The value (30) of MAXTRANS parameter ignored在客户的数据库系统中(Oracle 10.2.0.3),当使用expdp备份时就出现如下错误,非常准时。可以看到,这个错误就是由于备份时创建备份主表(Master Table)产生的:Sat Mar 7 02:40:01 2009T…

北京出台自动驾驶新规:自动驾驶车辆须配备司机应急

来源:人民日报概要:在中国境内注册的独立法人单位,因进行自动驾驶相关科研、定型试验,可申请临时上路行驶。记者今天从北京市交通委获悉,北京市交通委联合市公安交管局、市经济信息委等部门,制定发布了加快…

【未来研究】城市云脑是互联网云脑的节点,城市云脑之间如何互补与支撑

作者: 互联网进化论作者 ,计算机博士 刘锋前言:本文是未来智能实验室的研究文章,重点探讨了基于类脑架构的智慧城市建设不应局限在城市内部,而是在互联网大背景下,不同城市之间也会发生智慧建设的协同效应。本文从城市…

JNDI全攻略

名词解释jndi是Java 命名和目录接口(Java Naming and Directory Interface,JNDI)的简称.从一开始就一直是 Java 2 平台企业版(JEE)的核心技术之一。在JMS,JMail,JDBC,EJB等技术中,就大量应用的这…

北京大学纳家勇治研究组在《美国国家科学院院刊》发文阐明时序记忆的神经机制

来源: 北京大学心理与认知科学学院官网概要:记忆是核心认知功能之一,使得人和动物能够根据经验改变自己的行为模式。近日,《美国国家科学院院刊》(Proceedings of the National Academy of Sciences of the United Sta…

管道( Pipeline )模型--示例

类图 时序图 阀门接口 /*** 阀门接口* author administrator**/ public interface Valve {public String getName();public void invoke( Context context ); }基本阀门 /*** 基础阀门* author administrator**/ public class BasicValve implements Valve{private String name…

一文告诉你,NIPS 2017有多火爆 | 附PPT、视频、代码大总结

原文来源:Medium、GitHub作者:TarasSereda「雷克世界」编译:嗯~阿童木呀、KABUDA今年的NIPS是一场盛大的、极富教育意义和探索精神的、魅力十足且人数众多的会议。第一步,登记排队量子计算机Tutorials深度学习:实践与趋…