项目概述
DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能。
地址:https://github.com/liuhuanyong/DomainWordsDict
项目由来
1、领域性是自然语言处理中十分重要的一类问题,不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段,例如,在没有标注语料进行有监督的领域文本分类中,利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。
2、当前,纵观中文开放语言资源,并未有出现较大规模的领域性资源,如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。
为了填补这一空白以及对领域性词库进行基础语言资源建设,本项目被提出。
数据来源
通过对领域垂直网站的解析、领域文本的特征词提取,近几年来对领域词典的收集与整理,人工清洗等处理工作之后, 最终形成了数学科学、人力招聘、天文科学、餐饮食品、外语学习等共计68个领域,共计916万词的较大规模领域词汇库。
数据介绍
数据放在data文件夹下,共68个txt文件,每个文件以领域的名称命名。每个文件中的每一行包括两列(以tab符分开),分别代表词语名称以及对应的权重。文件中的词语按照权重从大到小的方式排列,权重越高,该词对于领域的代表性或区分能力就越强。在使用的过程中,我们可以设定具体的权重域值在选用不同的词语来用于特定任务。
词典样例
项目总结
1、本项目开放了一个涵盖68个领域,带有行业代表性权重的领域词库,规模达到了916万词,是目前开放词典资源中较大规模的一个,填补了一定的空缺。
2,领域词汇库的构建和开放,是一项基础、必要且重要的工作。可以通过领域开放文本进行挖掘,如基于垂直网站解析、文本特征词提取等诸多方法来实现。
3,关于领域词汇知识库的构建方法和理论,可以参考之前写的博客《领域词汇知识库的类型、可用资源与构建技术漫谈》:https://blog.csdn.net/lhy2014/article/details/103995629。
4,语言资源、经典词库的构建,与目前盛行的深度学习自然语言处理并行不悖。将已构建好的领域词库或者知识库融合到深度学习模型当中,是一个很好的前进方向。需要且必要地关注底层语义资源的建设。
关于作者
刘焕勇,liuhuanyong,现任360人工智能研究院算法专家,前中科院软件所工程师,主要研究方向为知识图谱、事件图谱在实际业务中的落地应用。
得语言者得天下,得语言资源者,分得天下,得语言逻辑者,争得天下。
1、个人主页:https://liuhuanyong.github.io。
2、个人博客:https://blog.csdn.net/lhy2014/。
3、个人公众号:老刘说NLP。
欢迎对自然语言处理、知识图谱、事件图谱理论技术、技术实践等落地应用的朋友一同交流。