能做什么?
- 自然语言处理:
- 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?
- 如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务?
基本概念
-
语言学:研究语言的本质、结构和发展规律的科学。
- 类别
- 历时语言学 (diachronic linguistics)或称历史语言学 (historical linguistics)、
- 共时语言学 (synchronic linguistics)、
- 描述语言学 (descriptive linguistics)、
- 对比语言学(contrastive linguistics)、
- 结构语言学 (structural linguistics) 等等。
- 类别
-
语音学 (phonetics)
- 研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。
- 包括:
- (1)发音语音学(articulatory phonetics),研究发音器官如何产生语音;
- (2)声学语音学(acoustic phonetics),研究口耳之间传递语音的物理属性;
- (3)听觉语音学(auditory phonetics), 研究人通过耳、听觉神经和大脑对语音的知觉反应
-
计算语言学(Computational Linguistics)CL
- 通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。
- 与内容接近的学科自然语言处理相比较,计算语言学更加侧重基础理论和方法的研究。
-
自然语言理解(Natural Language Understanding, NLU)
- 自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。它是人工智能早 期研究的领域之一,是一门在语言学、计算机科学、 认知科学、信息论和数学等多学科基础上形成的交叉 学科。
-
智能?
- 关于“理解”的标准
- 如何判断计算机系统的智能?
- 与有意识的个体(人)比较如何?
- 表现
- 反应
- 相互作用
- 方法:图灵设计的“模仿游戏” - 图灵实验(Turing test)
- 仍有争议
- 不易进行
- 只能说从表现上来看和人相似
- 如何判断计算机系统的智能?
- 关于“理解”的标准
-
自然语言处理nlp
- 自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,
- 研究内容:包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。
-
三个不同的语系
- 屈折语(fusional language/ inflectional language): 用词的形态变化表示语法关系,如英语、法语等。
- 黏着语(agglutinative language): 词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。
- 孤立语(analytic language)(分析语, isolating language): 形态变化少,语法关系靠词序和虚词表示,如汉语。
-
中文信息处理:针对中文的自然语言处理技术
计算语言学也称自然语言处理或自然语言理解——人类语言技术HLT
4.研究内容
-
机器翻译 (Machine translation, MT):实现一种语言到另一种语言的自动翻译。
- 应用:文献翻译、网页辅助浏览等。
-
信息检索
- 信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。
-
自动文摘
- 将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写
- 观点挖掘
-
问答系统 (Question-answering system)
- 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统 (man-computer dialogue system)
- 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统 (man-computer dialogue system)
-
信息过滤 (Information filtering)
- 通过计算机系统自动识别和过滤那些满足特定条件的文档信息。
-
信息抽取 (Information extraction)
- 从指定文档中或者海量文本中抽取出用户感兴趣的信息。
- 实体关系抽取 (entity relation extraction)。
- 社会网络 (social network)
-
文档分类 (Document categorization)
- 文档分类也叫文本自动分类 (Text categorization / classification) 或信息分类(Information categorization / classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
- 情感分类(Sentimental classification)
- 应用:图书管理、情报获取、网络内容监控等
-
语音识别 (automatic speech recognition, ASR)
- 将输入语音信号自动转换成书面文字。
- 应用:文字录入、人机通讯、语音翻译等等。
- 困难:大量存在的同音词、近音词、集外词、口音等等。
-
文语转换/ 语音合成 (text-to-speech synthesis)
- 将书面文本自动转换成对应的语音表征。
- 应用:朗读系统、人机语音接口等等。
-
说话人识别/认同/验证 (speaker recognition/ identification/ verification)
- 对一言语样品做声学分析,依此推断(确定或验证)说话人的身份。
- 应用:信息安全、防伪等等
-
一般将语音识别、语音合成和说话人识别等以语音信号为主要研究对象的语音技术独立出来,
-
而其他以文本(词汇/句子/篇章等)为主要处理对象的研究内容作为自然语言处理的主体
基本问题
- 形态学 (Morphology) 问题
- 研究词(word) 由有意义的基本单位-词素(morphemes)的构成问题。
- 单词的识别/ 汉语的分词问题。
- 词素:词根、前缀、后缀、词尾
- 句法 (Syntax) 问题
- 研究句子结构成分之间的相互关系和组成句子序列的规则
- 研究句子结构成分之间的相互关系和组成句子序列的规则
- 语义 (Semantics) 问题
- 研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义;
- 研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义;
- 语用学(Pragmatics) 问题
- 研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。
- 从狭隘的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境。
- 相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义。
- 语音学(Phonetics) 问题
- 研究语音特性、语音描述、分类及转写方法等
- 研究语音特性、语音描述、分类及转写方法等
主要困难
-
大量歧义(ambiguity)现象
- 词法歧义
- 自动化/研究所/取得/的/成就
- 自动化/研究/所/取得/的/成就
- 词性歧义
- 结构歧义
- 喜欢乡下的孩子。
- 关于鲁迅的文章。
- 语义歧义
- 一词多义
- 比喻
- eg
- 他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她
意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。 - 要把权力装进制度的笼子;老虎苍蝇一起打。破四旧,除四害;消灭一切牛鬼蛇神。
- 他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她
- 语音歧义:大量同音现象
- 多音字及韵律等歧义(语音合成的困难)
- 一字多音
- 韵律、声调、语气、重音
- 大量未知语言现象
- 新词、人名、地名、术语等
- 新含义(苹果)
- 新用法和新句型等,
- 词法歧义
-
归结其挑战有:
- 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
- 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和语法无处不在
- 始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
- 语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难
-
机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等
基本研究方法
- 理性主义:通常通过一些特殊的语句或语言现象的研究来得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中并不常见
- 问题求解的基本思路:基于规则的分析方法建立符号处理系统
- 规则库开发:N + N --> NP
- 词典标注: #工作,N(uc);V;
- 推导算法设计:归约、推导、歧义消解方法
- 知识库 + 推理系统 -->NLP 系统
- 理论基础:Chomsky 的文法理论
- 经验主义:偏重于对大规模语言数据中人们所实际使用的普通语句的统计。
- 求解问题的思路:基于大规模真实语料(语言数据)建立计算方法
- 大规模真实数据的收集、标注:真实性、代表性、标注信息 ……
- 统计模型建立:模型的复杂性、有效性、参数训练方法 ……
- 理论基础:统计学、信息论、机器学习
- 语料库 + 统计模型 --> NLP 系统
两种方法的实例
- 例子
- 以机器翻译为例
- 给定英语句子:
- There is a book on the desk.
- 将其翻译成汉语
基于规则的方法
- 基于规则的方法
- 对英语句子进行词法分析
- There/Ad is/Vbe a/Det book/N on/P the/Det desk/N ./Puc
- 对英语句子进行句法结构分析
- 利用转换规则将英语句子结构转换成汉语句子结构
- 利用转换规则将英语句子结构转换成汉语句子结构
- 对英语句子进行词法分析
- 根据转换后的句子结构,利用词典和生成规则生成翻译的结果句子
数据驱动的方法(SMT和NMT
基于统计的方法
- 贝叶斯判别
- 三个关键问题:
- 估计语言模型概率 p©;
- 估计翻译模型概率 p(E|C);
- 快速有效地搜索候选译文C,使p©×p(E|C)最大。
- 主要任务
- 收集大规模双语句子对、目标语言句子
- 参数训练与模型优化
研究现状
- 基本现状
- 部分问题得到了解决,可以为人们提供辅助性帮助,如:专业领域文档翻译,电子词典,搜索引擎,文字录入等;
- 基础问题研究仍任重而道远,如:语义表示和计算、高质量的自动翻译等;
- 社会需求日益迫切:信息服务、通讯、网络内容管理、情报处理、国家安全等;
- 许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系