一个问题就可以辨别真假NLP(自然语言处理)研究者

╮(╯▽╰)╭哎,自从人工智能火了以后,最近自称NLP研究者的人越来越多了,然而这其中的大忽悠有多少小夕就不想多说了。如果连自己在哪个领域、哪个学科搞研究都不懂的话,你相信他真的是这个领域的研究者喵?反正小夕不信╮(╯▽╰)╭

所以,这个问题就是:“自然语言处理跟自然语言理解和计算语言学是不是一个东西呢?”

在有的科普文,甚至书籍中,将自然语言处理、自然语言理解、计算语言学看作是一个东西,其实是很不准确的呐!小夕今天就讲一讲被大众媒体和诸多自称NLP领域的学者混为一谈的几个概念。

自然语言理解(NLU)

在60年前人工智能诞生之初,就提出了自然语言理解,并且将其作为人工智能最重要的研究方向。自然语言理解是为了探索人类语言能力和语言思维活动的本质,并模仿人类语言的认知过程来让计算机对人类语言进行理解和处理。其是语言学、计算机科学、认知科学、信息论和数学等多学科基础上形成的交叉学科。而其目标是让计算机真正的理解人类语言,进而进行处理与表达等。而判断计算机是否理解自然语言的标准就是“图灵测试”。

图灵测试在自然语言理解领域来说即:让一个人类提出问题,回答他的可能是人也可能是计算机。在计算机给出回答后,如果提问者分不清楚这是人还是计算机的回答,则认为计算机理解了人类语言,广义的说计算机具备了智能。

计算语言学(CL)

计算语言学的侧重点是数学建模。将人类语言建模为计算机可以有效计算的算法。也就是说,出发点是语言学,而做的是将语言学中的严谨理论借鉴并转为计算机算法,是一门非常理性的学科,即一门纯理论的学科。同时,这也是基于规则的自然语言处理方法的理论核心。

自然语言处理(NLP)

自然语言处理则是面向具体的应用场景,从系统实现与工程的角度出发来对语言文本进行加工与处理。它不一定用数学方法,但是总归是要用某种方法来解决某个特定的工程问题。其实该学科诞生的需求便是互联网上文本信息的爆炸式增长,因此只要能将互联网上的文本信息处理成我们想要达到的效果就可以啦,不一定非要让计算机去理解自然语言呀,也不一定非要有严谨的语言学规则或者数学公式呀

三者之间

这样看来应该有三门独立的学科才对,然而实际上我们发现国际上、国内的各大顶尖高校几乎只有“自然语言处理”这一个学科,偶尔会有个研究“计算语言学”的高校,而几乎没有研究“自然语言理解”的高校,为什么呢?

 

其实很好理解啦,虽然自然语言理解诞生的最早,但是遗憾的说,这门学科的有效进展几乎为0,也就是说现在远远谈不上让计算机去理解自然语言,依然停留在对自然语言进行处理的层次上。而随着基于规则的自然语言处理方法的衰落,计算语言学的研究热潮也大幅度冷却了。

 

插播一句,总有比较机智的做法,比如美国的CMU(不知道CMU的同学千万不要说自己是学计算机的!)就没有自然语言处理,人家起了个新名字叫“人类语言技术”,hhhhh,是不是感觉超机智呀~这样将来有一天计算机真的可以理解人类语言的时候,其他高校要将专业改名字啦,而CMU就不用改了╮(╯▽╰)╭

 

所以呀,从互相包含的关系上来说,自然语言处理(NLP)、自然语言理解(NLU)、计算语言学(CL)、人类语言技术(HLT)之间的关系是这样的:

2333,是不是感觉CMU特别心机婊╮(╯▽╰)╭

 

而从研究深度,或者说研究难度上说呢,NLU、CL、NLP这三个具备大量交集的领域是这样的:

所以呀,现在NLP领域正在蓬勃发展,带来了机器翻译(不解释)、搜索引擎(不解释)、人机对话(微软小冰、Siri等)、舆情检索(比如微博热搜)、文本情感分析(自动识别好评差评,参见天猫的评价标签)、信息抽取(如自动生成一篇文章的标题、文摘等,参见今日头条)、信息过滤(比如过滤小黄文或者反动言论,参加被请去喝茶的童鞋们)、文档分类(比如你写一篇足球赛事,计算机可以自动归类到体育主题,参加各大型新闻网站)、文本自动校正(参见word、搜狗拼音等,不解释啦)、语音识别、说话人识别、语音转文本、文本转语音等一系列技术~

 

所以呀,NLU的大量研究没有做到人工智能,但NLP却飞速发展中,通过各种方法实现计算机对自然语言的处理(甚至有时在老百姓看来,计算机好像真的理解了文本一样)。

 

那么深度学习会不会真正揭开NLU的篇章呢?小夕说啦,不可能哦。想象一下,一个小孩子学会一句话、并成功的将这句话转换成各种表达方式表达出来,只需要一两次的重复即可完成。而如今先进的深度学习模型则是消耗海量样本(意思即对一句话要重复上千上万次,甚至更多)才能完成勉强可以接受的“智能”水平,但是!一旦测试集稍加改变(比如改变一下问法、换一种表达方式),那么好不容易训练好的机器学习模型将近乎崩溃!所以也不难理解,哪怕是如今最先进的机器翻译系统,Google翻译,有时候在一句话的后面加一个毫无意义的“了”字,却会产生完全不同的两种翻译结果。究其根本原因就是计算机丝毫没有理解文本。虽然对大众来说这很难让人接受,但这是事实。

 

那么计算机何时可以真正去理解文本呢?期待新的机器学习模型吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481297.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023年十大数字科技前沿应用趋势

来源:腾讯研究院编辑:蒲蒲继21年的“变量”、22年的“融合”,2023年数字科技的发展呈现出明显的“升维”特征。近日,腾讯研究院联合百位内部科学家、技术专家和外部院士专家,发布《升维 - 2023年十大数字科技前沿应用趋…

绕开数学,讲讲信息论

看到文章的标题,肯定有人想说“诶?小夕你不是做人工智能吗?怎么又捣鼓起通信里面的信息论了?”小夕肯定会很开心的揪住你,然后说“哈哈哈~发现一只外行!”学过机器学习的喵喵肯定知道很多决策树的核心就是计…

大数据时代的机器学习有什么不同?

小夕昨晚没有发文章&#xff0c;却收到了一个大红包和好多晚安&#xff0c;好受之有愧..>_<...谢谢你们喵。路人戊&#xff1a;小夕&#xff0c;我们身处大数据时代了&#xff0c;好厉害呢。小夕&#xff1a;嗯嗯&#xff0c;哪里厉害了呢&#xff1f;路人戊&#xff1a;…

Science Bulletin | 阿尔茨海默病的现状与未来

目前全球人口老龄化进展严重&#xff0c;中国已成为世界上老龄化最快的国家之一。随着人口老龄化&#xff0c;痴呆患者的数目急剧增加&#xff0c;阿尔茨海默病&#xff08;Alzheimers disease, AD&#xff09;作为痴呆的主要原因&#xff0c;已成为当今社会最为热点的话题之一…

Science年度十大科学突破出炉:韦伯望远镜高居榜首,AIGC、NASA主动撞击小行星紧随其后...

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 文&#xff1a;量子位 前脚韦伯望远镜运维科学家刚获得Nature年度十大人物&#xff1b;紧接着&#xff0c;Science也将韦伯望远镜评为年度最大科学突破&#xff01;今天&#xff0c;Science重磅发布2022年度科…

词袋、独热与词向量

亲爱的读者喵喵&#xff0c;由于一些事情&#xff0c;小夕最近情绪欠佳&#xff0c;导致昨天又失约没有更新文章...而且文章中萌气散失...小夕会尽快调整好哦&#xff0c;小夕依然萌萌嗒我们知道&#xff0c;传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解&#xf…

人工智能会“偷走”潜艇的隐身能力吗?

更好的探测技术 不仅能使海洋变得透明&#xff0c;也许还会削弱核威慑力。潜艇的价值主要在于其隐蔽性。有一种名为“相互确保摧毁”的威慑战略&#xff0c;其关键在于尽量确保潜艇在核战争的第一次导弹打击中幸存下来&#xff0c;从而在第二次打击时发射导弹回击。因此&#x…

人工智能大地图之分布式人工智能篇

前言人工智能大地图系列文章更新啦&#xff01;大地图系列的文章是为了帮助即将入门和初步入门人工智能相关领域的喵喵从上帝视角看清整个人工智能学科的全貌&#xff08;好长的句子&#xff09;&#xff0c;小夕可不希望小夕的粉丝在研究了一年的人工智能某方向后&#xff0c;…

符合人类创作过程的AIGC:自动生成长故事的模型出现了

来源&#xff1a;机器之心报道编辑&#xff1a;小舟、蛋酱AI写文章还是得模仿人类的创作方法。在今天的人工智能领域&#xff0c;AI 写作神器层出不穷&#xff0c;技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候&#xff0c;那么前段时间的 Cha…

Science:挑战传统理论,重塑联想学习概念

来源&#xff1a;brainnews编译作者&#xff1a;Young&#xff08;brainnews创作团队&#xff09;校审&#xff1a;Simon&#xff08;brainnews编辑部&#xff09;学会根据环境线索预测奖赏对生存至关重要。人们认为&#xff0c;动物通过在结果偏离预期时更新预测来学习预测奖赏…

【完结】史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(四)

小夕再次感谢大家的关心&#xff0c;你们的小夕已经满血复活啦&#xff01;小夕会坚持为大家带来独一无二的干货和故事哦。前言有读者反映&#xff0c;ta若能完成这个系列的阶段三&#xff0c;就在他们实验室被奉为神了。因为他们实验室每个人人手一本《模式分类》&#xff0c;…

文本相似度

《统计学习方法》-李航 损失函数总结 概要 <div id"post_detail">NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背…

「可解释知识图谱推理」最新方法综述

来源&#xff1a;图灵人工智能近年来&#xff0c;以深度学习模型为基础的人工智能研究不断取得突破性进展&#xff0c;但其大多具有黑盒性&#xff0c;不 利于人类认知推理过程&#xff0c;导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网…

小夕的算法入门之路

小夕都快要成XX入门指导专业户了QAQ&#xff0c;小夕是要写人工智能和计算机干货的啊喂~好吧&#xff0c;问小夕如何入门算法的小伙伴太多了&#xff0c;还是写一篇文章吧。小夕还收到了“如何准备托福”和“如何准备考研英语”的求助&#xff0c;然而小夕没有考过&#xff0c;…

AIGC发展路径思考:大模型工具化普及迎来新机遇

来源&#xff1a;腾讯科技摘要&#xff1a;当前&#xff0c;AIGC引发社会关注&#xff0c;尤其是大模型和开源模式的推动&#xff0c;让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围&#xff1b;另一方面AI与创新的界限进一步模糊&a…

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先&#xff0c;暂且不管贝叶斯是什么意思&#xff0c;朴素这个名字放在分类器中好像有所深意。 一查&#xff0c;发现这个分类器的英文是“Nave Bayes”。Nave&#xff08;读作“哪义务”&#xff09;即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源&#xff1a;混沌巡洋舰时间来到 2095 年。地球表面满目疮痍&#xff0c;核战争和气候变化引发一场灾难。你只能过着困苦的生活&#xff0c;躲避匪帮&#xff0c;避开地雷。你的主要愿望就是活下去。或者&#xff0c;你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库&#xff0c;一般选择web of science 核心文集 第二步&#xff1a;在更多设置中选择web of science 第三步&#xff1a;点击被引频次后面的数字 第四部&#xff1a;点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项&#xff1a;web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想&#xff0c;被陶哲轩和他的博士后破解了&#xff01;此前陶哲轩在博客上发了个小预告&#xff0c;就已经有不少人赶来围观&#xff1a;看起来是个大新闻。现在&#xff0c;不少人期待的正式版论文&#xff0c;终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库&#xff08;Chinese Science Citation Database&#xff0c;简称CSCD&#xff09; 2 3 4 5 6点击详细信息进入下面的页面&#xff0c;可判断文档是否属于核心期刊&#xff01;