语言资源的类别、搜索与搭建策略

语言资源的类别、搜索与搭建策略
一、引言
语言资源，本身是一个宽泛的概念，即语言+资源，语言指的是资源的限定域，资源=资+源，是资料的来源或者汇总，加在一起，也就形成了这样一种界定：任何语言单位形成的集合，都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分，一方面语言资源是相关语言处理任务的支撑，为语言处理任务提供先验知识进行辅助，另一方面，语言处理任务也为语言资源提出了需求，并能够对语言资源的搭建、扩充起到技术性的支持作用。因此，随着自然语言处理技术的不断发展，自然语言处理需求在各个领域的不断扩张、应用，相关语言资源的构建占据了越来越为重要的地位。作者硕士期间所在的研究机构为国家语言资源监测与研究平面媒体中心，深受导师所传授的语言资源观熏陶，并在实际的学习、工作过程中，动手实践，形成了自己的一些浅薄的语言资源认识，现在写出来，供大家一起讨论。这篇文章的名称为“语言资源搜索、搭建策略”，主要介绍一些自己对语言资源的搜索，搭建过程中的一些心得。
二、语言资源的分类
前言中说到，任何语言单位的集合都可以称为语言资源，比如我有一个个人的口头禅集合，这个就可以称为一个语言资源库，在你实际生活中进行言语活动时，你其实就在使用这个语言资源库。再比如说，一个班级中的学生名单，其实也可以当作是一种语言资源，这个语言资源在进行班级学生点名、考核的时候也大有帮助。当然，此处所讨论的语言资源是从自然语言处理应用的角度上出发的。总的来说，我把它归为以下两种类型：
1、领域语料库
领域语料库，是从语料的这个角度来讲的，这里的语料，界定成文本级别（以自然语句为基础级别形成的文本集合，即可以是句子、段落、篇章等）。领域语料库，可以根据不同的划分规则而形成不同的语料类别：
1）根据所属领域，可以进一步细化成不同领域的语料库。包括金融领域语料、医药领域语料、教育领域语料、文学领域语料等等。
2）根据所属目的，可以进一步细化为：评测语料（为自然语言处理技术pk而人工构造的一些评测语料，如ACE,MUC等国际评测中所出现的如semeval2014,snli等）；工具语料（指供自然语言处理技术提供资源支撑的语料）
3）根据语料加工程度的不同，可进一步分为：熟语料（指在自然语言单位上添加人工的标签标注，如经过分词、词性标注、命名实体识别、依存句法标注形成的语料），生语料（指直接收集而未经加工形成的语言资源集，如常见的微博语料，新闻语料等）
4）根据语料语种的不同，可进一步分为：单语语料和多语语料，多语语料指的是平行语料，常见于机器翻译任务中的双语对齐语料（汉-阿平行语料库，汉-英平行语料库）等
5）根据语料规模的不同，可以进一步分为：小型语料库，中型语料库，大型语料库。至于小型、中型、大型的界定，可根据实际领域语料的规模而动态调整
2、领域词库
领域词库，指以句级以下语言单位形成的语言资源库，这个层级的语言单位可以是笔画、偏旁部首、字、词、短语等。同样的，领域词库也可以进一步细分。
1）领域特征词库。这里所说的领域特征词库，指的是与领域强相关，具有领域区别能力形成的词语集合，如体育领域中常见的“篮球”、“足球”等词，文学领域常见的“令狐冲”、“鲁迅”等词，又如敏感词库等，这些词常常可作为分类特征而存在。
2）语法语义词库。语义词库的侧重点在与语言的语法层面和语义层面：
a）语法词库：北大的语法信息词典，北大的实体概念词典、Hownet语义词典这三类词典，这几个语法词库，在对词的语法功能上都做了不同的工作，对词的内部结构信息进行了详细的标注，如北大的语法信息词典，以词类为划分标准讲汉语的常用词进行了划分，并对词性、搭配（前接成分和后接成分）进行了详细的标注；Hownet语义词典从义项的角度对词的义元进行了分解和注释。
b）语义词库：这类语义词点，侧重点不在词语的内部语法结构，而在词语的整体语义上。这类词库，常见的词库有哈工大发布的同义词词林扩展版，这个词库将同义词按照语义的相近程度进行了不同层次的聚类，可以作为同义词扩展提供帮助。另一个是情感分析任务中常用的情感词典，这类词典主要公开的词典包括大连理工大学信息检索实验室公开的情感本体词库、hownet、香港中文大学、台湾清华大学公开的情感词库（具体包括情感词库、否定词库、强度词库）等。另外，工业界，有boson公开的微博情感词库（词的规模比较大，但标注信息不是很精准）。还有的，则是中文的反义词库等，这个可以参考我的github项目，里面对这些词库也有一些涉及。
三、语言资源的搜索策略
从根本上来说，语言资源的构建是受具体应用需求驱动的，有了应用的需求，才能造就璀璨夺目的语言资源文化。在上一节中说到，目前网上开源的语言资源有很多，大家根据自己的业务需求或者目的，或多或少都能找到对应的资源。而单单这个“找”字，其实有的时候，也急坏了一批人。因此，在这一小节中，我来谈谈“语言资源的搜索策略”。
语言资源的搜索策略，指针对自己应用需求，而在网络开源信息当中寻求对口资源的一种方法论。根据自己的经验，语言资源的搜索策略大致可以分成三步走策略：
1）确定自己要搜什么。不要一上来就去百度里面搜索关键词，这是最忌讳的。每次我们拿到一个语言资源需求时，应该具体想明白自己要搜的这个东西。想三个问题：
搜的这个东西是什么？
搜的这个东西样式是怎样的？
搜的这个东西的目标数量有多少？
2）确定搜索的目标地。在想好自己要搜什么的时候，接下来就想去哪儿搜的问题。其实解决去哪儿搜的问题，可以遵循以下两个原则：
一是专业词库的专业词典户优先。这个意思是，专业的语言资源有很大概率都出现在专业的网站上，例如，我想找反义词的相关词库，这是词这一维度的，而且是一类语义词，首先想到的应该是词典。这个对应的，其实就可以去找相应的词典网站，如字典网、在线反义词词典等。说到词典，其实可以想到什么地方词典最多，答案很明显，那就是有个叫“输入法词库”的东西，我们在打字的时候，其实是一个个词往外蹦出来的，因此现在的输入法有很多词库，有的还提供上传用户个人词库的接口。我github中有一个关于搜狗词库下载及转换的一个项目，可以对搜狗输入法词库中的.scel格式的词库进行下载和转码，大家可以尝试一下。话说，搜狗的词库的类别和数目真的听过。另外，可以再从百度输入法等多个输入法进行扩展。此外，如果在专业的词典户中不存在的时候，那么则可以进一步义“你的词+词典”这种检索方式在百度文库、百度网盘、新浪微盘中进行搜索。
二是特征语料的垂直网站优先。这个主要特指相关的领域特征词库或者类别语料。目前行业的发展，催生了很多行业的模范网站，这些网站对某个行业做的比较深入，直接带来一个好处就是垂直语料的集大成。这个时候，我们其实就可以在这些网站中下功夫做工作。当然，这其实分成两种类型，
a）如果针对的是句子或以上级别的语料资源的需求时，可直接就垂直网站中的对应的板块下进行采集即可，里面有个需要注意的点，就是要看充分利用网站中的各个信息，如板块信息、标签页信息等，这是网站采编人员根据自己的业务体系自动梳理出来的。
b）如果是要做词语级别的，那其实可以尝试从板块类别、标签类别、类目体系等方面入手，这个解决部分的问题，而如果需要进一步扩充的话，则可以使用a）+ b）的方式，通过收集领域语料，再借助b）中收集的词作为种子词，使用词库扩充方法进行扩充。目前扩充的方式，包括：
一基于bootstrapping+wordvector/同义词库的方式不断迭代扩充等。
二基于lda/tfidf/co-occurance/mi等特征词提取的方式不断迭代扩充。
这个步骤，最终需要形成目标标地的一个名单，可以以列表形式展现。
3）全力搜索
在完成步骤2）之后，就按图索骥吧，动用全部家当，手动，写爬虫等等。这一部分不再赘述。
四、语言资源的搭建策略
语言资源的搭建，指的是语言资源的整个搭建过程。其实是要解决四个问题，一个是语言资源的收集问题；二是语言资源的融合标准化问题；三是语言资源的动态更新问题；四是语言资源的共享与联盟问题。下面就这四点展开阐述：
1、语言资源收集的问题。上一节中说到的语言资源搜索策略中，讲述了语言资源搜索过程中的三步走策略，在这个步骤完成之后，会得到一系列的词库。这些词库可能初期不会特别完善，往往还需要人工使用启发式规则进行人工去噪的工作。
2，语言资源的融合标准化问题。通过不同方式收集起来的语言资源，往往会存在一个格式不对称的问题，这有点像知识图谱中的知识融合问题。因此，为了解决这个问题，我们通常需要制定一个标准化的语言资源格式，例如，在构建情感词表的过程当中，有的情感词表没有强度标记，有的强度值范围不一样，有的情感词表的标记不一，这个时候往往需要标准化，给定一个标准化的样式，再将不同来源的情感词按照这个标记做相应的调整。我在实际的工作过程中，常常把这种问题类别成知识图谱构建过程中的schema搭建问题，信息抽取过程中的slot-definition问题。先把规范和标准搭好，再去统一标准化。
3，语言资源的动态更新问题。知识和信息的价值，在很大程度上都在于它的一种实时性，语言资源作为一种常识性知识库，能够保证自身的一种与时俱进，将能够最大限度地发挥自身的价值。而从实践的角度上来说，语言资源的动态更新，可以靠人工去维持，去动态及时更新，也可以建立一种动态监测和更新机制，让机器自动地去更新。这类其实可以参考知识图谱更新的相关工作。
4，语言资源的共享与联盟问题。语言资源是否共享，其实是一个与业务敏感以及开源意识想结合的一种决策，有的资源因为某种业务敏感或者开源意识不够open而无法共享，当然还有其他因素成分在，不过，语言资源最好是需要共享的，这样能够最大力度的发挥语言资源在各个领域的应用。语言资源的联盟问题，更像是对开源语言资源的一种链接与互联。这类问题是对当前的资源零散、碎片化问题的一个思考，前面也说到，目前情感分析的词表有很多个，语法和语义词库也有很多个，但每个人在构建时的出发点不同，构建者也分布在不同的高校或机构当中，这些资源虽然在个数上会有增长，但随着时间的推移，这种零散化的现象将会越来越严重。
五、总结
自然语言处理，是人工智能皇冠上的一颗明珠，懂语言者得天下，语言资源在自然语言处理中扮演着举足轻重的作用，懂语言资源者，分得天下。目前开放的网络环境，对语言资源的大繁荣提供了很大的契机。语言资源构建是一门学问，也是一种手段，现在自然语言处理技术也对语言资源的构建提供了技术上的支持，如何把握语言资源搜索策略，搭建策略，重点解决语言资源的动态更新、共享与联盟问题，将是语言资源建设未来需要解决的问题。

语言资源的类别、搜索与搭建策略

相关文章

听说读论文也有trick？这篇文章告诉你深度学习论文阅读最佳姿势

屏幕Screen类文件编写

机器翻译自动评估-BLEU算法详解

论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

最全MySQL面试60题和答案

中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)

账户Account类文件编写（static成员使用）

百度机器阅读理解比赛赛后总结

课程 | 《知识图谱》第二期重磅来袭！

All in Linux：一个算法工程师的IDE断奶之路

2019 阿里Java 4轮面试题，含必考题答案参考！

SiameseSentenceSimilarity相似句子匹配分类项目

技术动态 | 自底向上构建知识图谱全过程

数据结构--单链表single linked list数据结构C++实现

搜索中的 Query 理解及应用

GAN原理，优缺点、应用总结

java程序员进阶必读书单

中文电子病例命名实体识别项目

胡伟 | 面向多实体人机协作消解的对比表生成自动化方法

poj 1250 解题（链表法）