自然语言处理中的中文词性、标记规范及其应用

分词和词性标注是自然语言处理领域的重要组成部分,尤其对于中文而言,作为整条自然语言处理pipeline的源头,分词和词性标注更是起到了关键的作用。我整理这篇文章,主要来源于这几个问题:
一、理解中文词性是否有意义?
问题:前几天跟几个刚认识的朋友谈自然语言处理的相关问题时,遇到一问题让我觉得很有意思,这位朋友说,中文没有词性可言,因为中文的词性兼类太过于严重,动副兼类,名动兼类等等,理解中文词性没有任何意义。当然,这位朋友知识从一个汉语本身的特点来说出的这个结论,但说理解中文词性没有任何意义,这个不太赞同。中文的词性与中文的语言构成和语言使用具有严格上的对应关系,而且词性作为概念的抽象,对于语言的泛化具有重要意义。

二、搞自然语言处理的是否要懂词性标记体系?
作为课题组的自然语言处理面试官,我出了一道开放性的问题,很简单,面试题为:介绍一下开源中文自然语言处理工具包的常见词性、依存关系标记及其对应的含义。但至今为止,没有人答上来过,这让我感到有点失望。做自然语言处理,在深度学习大行其道之时,都不注意语言本身的基础知识,这很有可能会导致“不懂你研究的对象还偏要去研究它”的悖论。理解中文的词性和语义依存关系是自然语言处理的一项基本功,大家一定要引起注意。

因此,本文将总结中文词性和依存关系,结合其具体含义以及相关的开源标记展开论述。

一、中文的词性
词是语义完整的最小语言单位,中文的词语包括有实词和虚词两个大类,实词指能够独立充当语法成分并且有实际意义的词,包括名词、动词、形容词、数词、量词、代词共6个小类。虚词指的是不能独立充当语法成分的词,主要有副词、介词、连词、助词、语气词、拟声词、感叹词6类,两者相加,一共组成12类词性。下图主要列举了中文实词和虚词的分类、意义、对应的NLP任务以及完成的任务几个信息。

图1-实词分类及信息
在这里插入图片描述

图2-虚词分类及信息
在这里插入图片描述
二、开源工具中的词性标注体系
不同的开源工具会采用不同的词性标注体系,但就词性标注的类比而言,差异不大。Jieba分词是目前自然语言处理词性标注的主流词性标注工具,下面主要列举了该工具的词性标注规范。
在这里插入图片描述
三、词性标记在自然语言处理中的应用
标记最大的好处在于对词语成分进行了标记,这种标记信息起到了一个分类和指引的作用,由于我们整个人类社会都是基于标签体系在运作的,所以基于词性标签进行信息的筛选和过滤往往能够带来不错的效果。笔者在实际的工作和学习过程中总结到了词性标注主要有以下几种应用。
1、停用词的选择
去除停用词是目前自然语言处理中的常用手段,在进行特征提取、无关信息过滤上,去除无用词扮演着重要作用。从方法上来说,去除停用词包括基于词表的停用词去除和基于词性的停用词去除两种方法,其中基于词表的停用词去除往往需要人工定义出大量的停用词,如“是”、“这”之类的词语。后者则可以根据词性本身的特性进行去除,例如连词、助词、介词等词性,也可以将无用词进行移除。当然,两种方法都各有利弊,前者往往需要人工去构造停用词表,而且不同领域的文本其实用到的停用词是不同的,这在进行跨领域文本处理的时候,往往需要花费大量人力,但这种人力是值得的,可以做到不同领域文本的适配。后者的优势在于简单和快速,无需穷举,缺点就是无法做大领域自适应。因此,为了互补,往往会选择两种方式结合的去停用词方式,即停用词表与停用词性的停用词去除方法。
2、关键信息提取过滤
通常关键词或高频词提取是我们在进行文本信息提取是的常用方法,这种方法本质上是从词的角度对文本中的代表性信息进行形式化。从技术角度上来说,可以基于统计概率的方法极性提取,如常用TF求高频词,常用的TFID方法获取关键词,常用的LDA方法获取主题词等。但这种基于概率的方法对于词性本身而言是不敏感的,为了使得结果漂亮一些,往往需要再加上一层词性过滤,如通常提取名词性成分和动词性成分,如名词性成分中的人名、地名、机构名等,动词性成分中的动词、习语等。

四、总结
词性标注是自然语言处理中的重要内容,本质上分成词性和标注两个部分,词性部分是对中文语言的抽象分类,标注完成的是人对词语的认知过程。作为自然语言处理的研究或开发人员,应该对自己所处理的对象有个认识,知彼知己,才能百战百胜,一味地投入深度学习网络参数模型之中,有种舍本逐末的感觉。中文的词性标注足够有趣,足够有用,且足够具有挑战性。本文提出了目前大家对中文词性的忽视和误解,从实词和虚词两个角度出发,分析了中文词性体系,词性的对应任务和意义,并在最后就词性在中文自然语言处理中的应用进行了简单的介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480445.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

白雪 | NLP加持知识图谱在金融事件挖掘中的应用

本文转载自公众号:阡寻科技。9月15日讯,涵盖金融科技、人工智能及区块链领域的2018恒生技术开放日于今日开幕,阡寻科技联席CEO、复旦大学人工智能方向博士白雪受邀出席本次大会,分享了金融领域事件特点分析、常用的事件抽取方法以…

2020年,中国AI创业公司将走向何方

前言如果说2012年深度学习的崛起是点燃AI浪潮的星星之火,那么2016年的AlphaGo的成功则是一阵东风,AI之火已成燎原之势。那么,走向21世纪的新的十年(2020年),中国AI创业公司将走向何方呢?作者是一…

常见数据结构与算法整理总结(下)

原文链接:https://www.jianshu.com/p/42f81846c0fb 这篇文章是常见数据结构与算法整理总结的下篇,上一篇主要是对常见的数据结构进行集中总结,这篇主要是总结一些常见的算法相关内容,文章中如有错误,欢迎指出。 一、概…

2019蚂蚁金服 Java面试题目!涵盖现场3面真题

蚂蚁Java一面 二叉搜索树和平衡二叉树有什么关系,强平衡二叉树(AVL树)和弱平衡二叉树(红黑树)有什么区别 B树和B树的区别,为什么MySQL要使用B树 HashMap如何解决Hash冲突 epoll和poll的区别,…

数据结构--队列Queue--打印杨辉三角

杨辉三角大家很熟悉,不做介绍了,第n行的首末两元素均为1,中间n-2个元素由n-1行相邻两元素相加得到。 将第1行数据入队(1) -------队列表示(队头,… 队尾)------- 第2行数据1入队&am…

论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

OpenKG 祝各位读者中秋快乐!链接:http://coai.cs.tsinghua.edu.cn/hml/media/files/2018_commonsense_ZhouHao_3_TYVQ7Iq.pdf动机在以前的工作中,对话生成的信息源是文本与对话记录。但是这样一来,如果遇到 OOV 的词,模型往往难以…

7款优秀Vim插件帮你打造完美IDE

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

POJ 2259 team queue团队排队问题

题目链接: http://poj.org/problem?id2259 题目大意: 告诉你一堆人(m个人是一组的,n个人是一组的。。。。);然后一个人来排队了,先看下有自己组的熟人吗?有的话直接排在自己组的人…

中文句法分析、标记规范及其应用

一、 Why句法分析 句法分析是比词高一个层级的语言单位,单个词之间通过中文语法规则进行组织,形成一个具有连贯语义的词语序列。为了揭示这种组织结构和规则,揭示出词语以及词语的成分,往往需要对其进行句法分析。就中文而言&…

蚂蚁三面题目(java开发岗):Java锁机制+JVM+线程池+事务+中间件

一面 1、HashMap底层原理?HashTable和ConcurrentHashMap他们之间的相同点和不同点? 2、由上题提到锁的问题 3、MySQL的表锁&行锁&乐观锁&悲观锁,各自的使用场景 4、Java线程锁有哪些,各自的优劣势 5、事务四大特性 6、事务的…

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题。零样本学习(Zero-Shot Learning, ZSL)的提出,则有效地解决了此…

ACL20 | 让笨重的BERT问答匹配模型变快!

一只小狐狸带你解锁炼丹术&NLP秘籍作者:曹庆庆(Stony Brook University 在读PhD,关注Efficient NLP、QA方向,详见awk.ai)背景BERT、XLNet、RoBERTa等基于Transformer[1]的预训练模型推出后,自然语言理解…

POJ 1581 优先队列 priority_queue -- 比赛胜者求解

题目链接:http://poj.org/problem?id1581 题目大意: 给定选手姓名,及答题提交次数(提交正确前,错误一次罚20分),每题的做题时间罚分(未正确作答的不罚分),…

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

一、热点事件概述 热点事件具有不可预测性,这决定了热点事件往往是一个“事后诸葛亮”的产物,一个热点事件从刚开始出现之时并没有带有成为热点的性质,当然,重大事故或者突发事件(如总统被杀、日本地震、印尼海啸、巴黎圣母院火灾…

计算机网络安全知识汇总

一、计算机网络面临的安全性威胁计算机网络上的通信面临以下的四种威胁: 截获——从网络上窃听他人的通信内容。 中断——有意中断他人在网络上的通信。 篡改——故意篡改网络上传送的报文。 伪造——伪造信息在网络上传送。截获信息的攻击称为被动攻击&#xff0c…

天猫研发Java团队(4面全题目):并发压测+Mina+事务+集群+秒杀架构

天猫高级Java一面 常见集合类的区别和适用场景 并发容器了解哪些? 如何判断链表是否有环 concurrentHashMap如何实现 集群服务器 如何application 共享 JAVA网络编程中:BIO、NIO、AIO的区别和联系 jvm内存模型jmm 知道的全讲讲 JAVA的垃圾回收&am…

回顾经典,Netflix的推荐系统架构

这篇文章我们回顾一篇经典博客,Netflix官方博客介绍的推荐系统架构,虽然文章发布已有六年, 但是现在回看起来我自己还是蛮惊讶的,因为Netflix的推荐系统架构居然到现在依然是主流。当然,框架中的诸多技术在不断的迭代更…

CNCC 技术论坛 | 知识图谱赋能数字经济

2018中国计算机大会(CNCC2018)将于10月25-27日在杭州国际博览中心(G20会场)举行,大会主题为「大数据推动数字经济」(Big Data Drives the Digital Economy)。10月15日前报名可享优惠&#xff0c…

计算机网络:我把所有计算机网络的基础都汇总到这里了!

原文链接:https://cloud.tencent.com/developer/article/1388529 前言计算机网络基础 该是程序猿需掌握的知识,但往往会被忽略今天,我将献上一份详细 & 清晰的计算机网络基础 学习指南,涵盖 TCP / UDP协议、Http协议、Socket等…

算法--递归--走台阶问题(2种递归+递归改循环)

文章目录递归:注意事项:问题1思路1.递归代码(未考虑重复计算问题)2.循环代码3.递归代码(避免重复计算问题)测试运行时间问题2递归: 一个问题可以分解成若干子问题,且求解思路一样&a…