nlp1-介绍

能做什么?

  • 自然语言处理:
    • 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?
    • 如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务?

基本概念

  • 语言学:研究语言的本质、结构和发展规律的科学。

    • 类别
      • 历时语言学 (diachronic linguistics)或称历史语言学 (historical linguistics)、
      • 共时语言学 (synchronic linguistics)、
      • 描述语言学 (descriptive linguistics)、
      • 对比语言学(contrastive linguistics)、
      • 结构语言学 (structural linguistics) 等等。
  • 语音学 (phonetics)

    • 研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。
    • 包括:
      • (1)发音语音学(articulatory phonetics),研究发音器官如何产生语音;
      • (2)声学语音学(acoustic phonetics),研究口耳之间传递语音的物理属性;
      • (3)听觉语音学(auditory phonetics), 研究人通过耳、听觉神经和大脑对语音的知觉反应
  • 计算语言学(Computational Linguistics)CL

    • 通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。
    • 与内容接近的学科自然语言处理相比较,计算语言学更加侧重基础理论和方法的研究。
  • 自然语言理解(Natural Language Understanding, NLU)

    • 自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。它是人工智能早 期研究的领域之一,是一门在语言学、计算机科学、 认知科学、信息论和数学等多学科基础上形成的交叉 学科。
  • 智能?

    • 关于“理解”的标准
      •  如何判断计算机系统的智能?
        • 与有意识的个体(人)比较如何?
        • 表现
        • 反应
        • 相互作用
      • 方法:图灵设计的“模仿游戏” - 图灵实验(Turing test)
        • 仍有争议
        • 不易进行
        • 只能说从表现上来看和人相似
  • 自然语言处理nlp

    • 自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,
    • 研究内容:包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。
  • 三个不同的语系

    •  屈折语(fusional language/ inflectional language): 用词的形态变化表示语法关系,如英语、法语等。
    •  黏着语(agglutinative language): 词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。
    •  孤立语(analytic language)(分析语, isolating language): 形态变化少,语法关系靠词序和虚词表示,如汉语。
      在这里插入图片描述
  • 中文信息处理:针对中文的自然语言处理技术

计算语言学也称自然语言处理或自然语言理解——人类语言技术HLT

在这里插入图片描述

4.研究内容

  • 机器翻译 (Machine translation, MT):实现一种语言到另一种语言的自动翻译。

    • 应用:文献翻译、网页辅助浏览等。
  • 信息检索

    • 信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。
  • 自动文摘

    • 将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写
    • 观点挖掘
  • 问答系统 (Question-answering system)

    • 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统 (man-computer dialogue system)
      在这里插入图片描述
  • 信息过滤 (Information filtering)

    • 通过计算机系统自动识别和过滤那些满足特定条件的文档信息。
  • 信息抽取 (Information extraction)

    • 从指定文档中或者海量文本中抽取出用户感兴趣的信息。
    • 实体关系抽取 (entity relation extraction)。
    • 社会网络 (social network)
  • 文档分类 (Document categorization)

    • 文档分类也叫文本自动分类 (Text categorization / classification) 或信息分类(Information categorization / classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
    • 情感分类(Sentimental classification)
    •  应用:图书管理、情报获取、网络内容监控等
  • 语音识别 (automatic speech recognition, ASR)

    • 将输入语音信号自动转换成书面文字。
    •  应用:文字录入、人机通讯、语音翻译等等。
    •  困难:大量存在的同音词、近音词、集外词、口音等等。
  • 文语转换/ 语音合成 (text-to-speech synthesis)

    • 将书面文本自动转换成对应的语音表征。
    •  应用:朗读系统、人机语音接口等等。
  •  说话人识别/认同/验证 (speaker recognition/ identification/ verification)

    • 对一言语样品做声学分析,依此推断(确定或验证)说话人的身份。
    •  应用:信息安全、防伪等等
  • 一般将语音识别、语音合成和说话人识别等以语音信号为主要研究对象的语音技术独立出来,

  • 而其他以文本(词汇/句子/篇章等)为主要处理对象的研究内容作为自然语言处理的主体
    在这里插入图片描述

基本问题

  • 形态学 (Morphology) 问题
    • 研究词(word) 由有意义的基本单位-词素(morphemes)的构成问题。
    • 单词的识别/ 汉语的分词问题。
    • 词素:词根、前缀、后缀、词尾
      在这里插入图片描述
  • 句法 (Syntax) 问题
    • 研究句子结构成分之间的相互关系和组成句子序列的规则
      在这里插入图片描述
  • 语义 (Semantics) 问题
    • 研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义;
      在这里插入图片描述在这里插入图片描述
  • 语用学(Pragmatics) 问题
    • 研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。
    • 从狭隘的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境
    • 相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义。
  • 语音学(Phonetics) 问题
    • 研究语音特性、语音描述、分类及转写方法等
      在这里插入图片描述

主要困难

  • 大量歧义(ambiguity)现象

    •  词法歧义
      • 自动化/研究所/取得/的/成就
      • 自动化/研究/所/取得/的/成就
    • 词性歧义
    • 结构歧义
      • 喜欢乡下的孩子。
      • 关于鲁迅的文章。
    • 语义歧义
      • 一词多义
      • 比喻
      • eg
        • 他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她
          意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。
        • 要把权力装进制度的笼子;老虎苍蝇一起打。破四旧,除四害;消灭一切牛鬼蛇神。
    • 语音歧义:大量同音现象
    • 多音字及韵律等歧义(语音合成的困难)
      • 一字多音
      • 韵律、声调、语气、重音
    • 大量未知语言现象
      • 新词、人名、地名、术语等
      • 新含义(苹果)
      • 新用法和新句型等,
        在这里插入图片描述
        在这里插入图片描述
  • 归结其挑战有:

    • 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
    • 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和语法无处不在
    • 始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
    • 语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难
  • 机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等

基本研究方法

  • 理性主义:通常通过一些特殊的语句或语言现象的研究来得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中并不常见
    • 问题求解的基本思路:基于规则的分析方法建立符号处理系统
    • 规则库开发:N + N --> NP
    • 词典标注: #工作,N(uc);V;
    • 推导算法设计:归约、推导、歧义消解方法
    • 知识库 + 推理系统 -->NLP 系统
    • 理论基础:Chomsky 的文法理论
  • 经验主义:偏重于对大规模语言数据中人们所实际使用的普通语句的统计。
    • 求解问题的思路:基于大规模真实语料(语言数据)建立计算方法
    • 大规模真实数据的收集、标注:真实性、代表性、标注信息 ……
    • 统计模型建立:模型的复杂性、有效性、参数训练方法 ……
    • 理论基础:统计学、信息论、机器学习
    • 语料库 + 统计模型 --> NLP 系统

两种方法的实例

  • 例子
    • 以机器翻译为例
    • 给定英语句子:
    • There is a book on the desk.
    • 将其翻译成汉语

基于规则的方法

  • 基于规则的方法
    • 对英语句子进行词法分析
      • There/Ad is/Vbe a/Det book/N on/P the/Det desk/N ./Puc
    • 对英语句子进行句法结构分析在这里插入图片描述
      • 利用转换规则将英语句子结构转换成汉语句子结构
        在这里插入图片描述在这里插入图片描述
  • 根据转换后的句子结构,利用词典和生成规则生成翻译的结果句子
    在这里插入图片描述

数据驱动的方法(SMT和NMT

在这里插入图片描述

基于统计的方法

  • 贝叶斯判别
    在这里插入图片描述在这里插入图片描述
  • 三个关键问题:
    • 估计语言模型概率 p©;
    • 估计翻译模型概率 p(E|C);
    • 快速有效地搜索候选译文C,使p©×p(E|C)最大。
  • 主要任务
    • 收集大规模双语句子对、目标语言句子
    • 参数训练与模型优化
      在这里插入图片描述

研究现状

  • 基本现状
  •  部分问题得到了解决,可以为人们提供辅助性帮助,如:专业领域文档翻译,电子词典,搜索引擎,文字录入等;
  •  基础问题研究仍任重而道远,如:语义表示和计算、高质量的自动翻译等;
  •  社会需求日益迫切:信息服务、通讯、网络内容管理、情报处理、国家安全等;
  •  许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481613.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

经纬张颖:给科研技术背景创始人的十条建议

来源:动脉橙果局编辑: Light出品: 科技智谷"给科研技术背景创始人的十条建议近一年,随着经纬在科技类公司的投资比例更大、金额更多,我和这类创始人们也进行了更高频次的交流,更多地了解了他们的困惑和…

nlp2-数学基础(信息论,概率论、词义消歧)

文章目录概率论信息论计算熵计算信息熵、条件熵、联合熵波利尼亚语熵率噪声信道模型建立一个翻译词义消歧(WSD贝叶斯最大熵的消歧方法概率论 在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符…

格鲁夫12年前惊人的预言,解释了今天美国对中国芯片所做的一切

来源: 未尽研究从芯片到光伏和动力电池,英特尔前董事长和CEO格鲁夫惊人地预言了美国制造业与科技当下所遇到的麻烦。他是一位以严厉著称的CEO,在美国金融危机刚结束之际,在商业杂志的封面发表了一篇犀利的评论。尤其是在美国硅谷如…

真正的人工智能,需要理解本体论

来源:混沌巡洋舰人工智能的终极语境是什么?真正的人工智能,需要理解本体论现在的人工智能技术突破或许具有划时代意义,但即使是计算能力最强大、最先进的机器,也达不到人类智能的层级。人工智能具备测算能力&#xff0…

知识图谱-架构图

binlog-MySQL的日志 用于实时处理与离线增量导入架构 Kafka消息队列 老虎队队长(AV75056045)

知识图谱2-知识表示

知识表示的重要性 知识是智能的基础 机器可以获得知识机器可以运用知识符合计算机要求的知识模式 计算机能存储处理的知识表示模式数据结构ER模型Sql与RDF模型SPARQL对比 关系模型 关系显式定义(RDF) 关系隐式定义(ER)(理解后写出来的表 数据变更时 RDF--数据变更…

韩国芯片教父:金钟基如何带领韩国成为半导体超级大国

来源 :大数据文摘编译:Mickey来源:https://spectrum.ieee.org/kim-choong-ki在韩国芯片行业有这样一群人的传说,他们被称为“金氏黑手党”。金钟基本人不会这么称呼这群人,但对韩国的半导体工程师们来说,“金氏黑手党”…

论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

文章目录摘要Introduction最近工作基于PRA的其他方法其他使用强化学习的方法我们的方法方法介绍(强化学习摘要 研究了大规模知识图的学习推理问题。更具体地说,我们描述了一个用于学习多跳关系路径的新型强化学习框架:我们使用一个基于知识图嵌入的具有…

万字因果推断入门:为什么要做因果推断?

来源:PaperWeekly1、为什么需要因果推断1.1 辛普森悖论首先,考虑一个与现实情况很相关的例子:针对某种新冠病毒 COVID-27,假设有两种疗法:方案 A 和方案 B,B 比 A 更稀缺(耗费的医疗资源更多&am…

论文学习2-Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforce

文章目录摘要介绍相关工作方法Mean Selection Rate (MSR) and Mean Replacement Rate (MRRIncorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning摘要 知识图(KG)推理的目的是寻找关系的推理路径,以解决K…

报告下载:《2022城市大脑首部建设标准资料汇总》

2022年9月1日,中国指挥与控制学会正式发布城市大脑首批三项标准,这部《2022城市大脑首部建设标准资料汇总》除了包含发布的三项标准全文内容,还汇总了城市大脑标准研究团队2022年以来的相关研究资料,完整内容包括:1. 解…

nlp3-有限自动机FLandFA

文章目录1形式语言1.2形式语言3推导3.1句型、句子、语言3.2文法3.3派生树与二义性4有限自动机和正则文法4.1确定的有限自动机DFA4.2不确定的有限自动机NFA4.3有限自动机<>正则文法5.下推自动机PDA和上下文无关文法CFG5.1PDA5.1.1 PDA的例子.5.2 其他自动机5.2.1 区别6. 有…

经常看蓝色的东西能提升智力?科学研究发现,蓝色能改变意识状态

来源&#xff1a;科学的乐园我们的宇宙是一个“多姿多彩”的美丽时空&#xff0c;从人类睁开眼的那一刻开始&#xff0c;映入眼帘的就是一个五颜六色的世界。根据科学家的统计&#xff0c;人眼可以识别的电磁波频段包含100多万种“组合颜色”。这要归功于我们视觉系统得天独厚的…

论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention

文章目录1 当前不足2. 本文的想法3.相关工作4.KNET4.1encoder4.2类型预测4.3attention5.实验6.以后Improving Neural Fine-Grained Entity Typing with Knowledge Attention用于&#xff1a;Fine-grained entity typing细粒度实体类型(它将实体划分为大量细粒度类型&#xff0c…

深度学习和因果如何结合?北交最新《深度因果模型》综述论文,31页pdf涵盖216篇文献详述41个深度因果模型...

来源&#xff1a;专知北京交通大学最新《深度因果模型》综述论文&#xff0c;31页pdf涵盖216页pdf详述41个深度因果模型&#xff0c;值得关注&#xff01;因果关系概念在人类认知中起着重要作用。在过去的几十年里&#xff0c;因果推理在计算机科学、医学、经济学和教育等许多领…

论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification

文章目录1.introduction2.相关工作3. 本文model3.1general model3.2 mention represent3.3 context model3.3.1 averaging encoder3.3.2 LSTM encoder3.3.3 Attention Encoder4. 实验在这项工作中&#xff0c;我们提出了一种新的基于注意的神经网络模型来完成细粒度实体类型分类…

脑机接口技术或将纳入美出口管制?技术成熟度与军用进展情况

来源&#xff1a; 学术plus 编译&#xff1a;学术plus高级观察员 TAO2022年9月&#xff0c;美国国会的下属机构政府问责局&#xff08;Government Accountability Office, GAO&#xff09;发布了题为《脑机接口》&#xff08;Brain-Computer Interfaces&#xff09;的焦点…

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

来源&#xff1a;AI科技评论作者&#xff1a;黄楠编辑&#xff1a;陈彩娴9月21日&#xff0c;OpenAI 发布了一个名为「Whisper 」的神经网络&#xff0c;声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。「Whisper 」式一个自动语音识别&#xff08;ASR&#xff09;系…

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录摘要1.Introduction2. 介绍两个概念2.1 Dynamic Heterogeneous Network Model动态异构网络模型2.2 时间随机游走3NODE2BITS:基于散列的Emdedding框架3.1 采样时间随机游动和定义时间上下文3.2 基于多维特征的时态语境&#xff08;上下文3.3基于特征的上下文聚合和散列4…

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源&#xff1a;智源社区整理&#xff1a;戴一鸣导读&#xff1a;机器人领域已经发展了三四十年&#xff0c;但应用方面的进展较慢。这是因为&#xff0c;机器人建立在这样一个假设上&#xff1a;工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境&#xff08;如家…