开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset（CCKS2021）

OpenKG地址：http://openkg.cn/dataset/rcwi-dataset

开放许可协议：CC BY-SA 4.0 （署名相似共享）

贡献者：北京语言大学（阙孟溪、张宇飞、于东）

1. 摘要

中文领域的词汇复杂度评估资源较为匮乏，且现有的外语数据集大多数只关注造成阅读困扰的词汇。中文相对复杂词汇识别数据集（以下简称RCWI-Dataset）为针对中文母语者构建的词汇复杂度评估资源，包含40613条样本，三种词汇复杂度类型，每条数据至少被三名中文母语标注员标注。该数据集为推动中文词汇复杂度评估任务发展提供有力支撑。

2. 词汇复杂度资源

中文词汇复杂度资源以分级词表为主，一般通过专家标注构建，数据质量高，但成本较高，规模较小。自然语言处理用的词汇复杂度资源以词汇简化、复杂词汇识别等任务为构建导向，标注句子中不能被独立理解的词汇。简单将词汇分为“复杂”或“不复杂”两类的方式无法对词汇的复杂度进行具体说明，且直接标注目标词汇的方式主观性较强。对此我们引入句子中其余词汇作为客观比较对象，对句子中超出平均难度的词汇进行标注，称为“相对复杂词汇”。此外，我们对词汇的复杂程度作出区分，与传统二值化词汇复杂度的资源相比包含更丰富的复杂度信息。

3. 数据集

我们采用唐玉玲等人构建的的汉语句子难度等级语料库作为原始语料来源，该语料库来自语文教材，涵盖科普、记叙等多种文本体裁。我们根据原始句子等级比例抽取2-4等级的句子共2万条。为了获得更加可靠和多样的标注结果，我们规定RCWI-Dataset的标注对象为：给定句子中，明显超过句子平均词汇难度的词汇和词组。若标注词汇对阅读理解造成困扰，标注为“Hard”，否则标注为“Complex”。根据试标注的结果确定了常见的三种标注情况，如表1所示。我们要求标注者在标注每条数据之前，先完成对句子的阅读以获得句子的整体词汇难度。同时，考虑上下文对词汇复杂度的影响，对于脱离当前上下文则无法准确理解的词汇，同样需要进行标注。

表1 三种常见的标注类型示例，橙色词汇为“Complex”，红色为“Hard”

Complex：能理解的但是超过句子平均词汇难度的词汇

1. 万众一心，冒着敌人的炮火，前进！

2. 正因为它不是一般的顽石，当然不能去做墙，做台阶，不能去雕刻，捶布。

Hard：阅读理解困难的词汇

1. 见到人们受苦，鲧很着急，就把天上的土偷下来，去堵塞洪水。

2. 于是，伯父家盖房,想以它垒山墙，但苦于它极不规则，没棱角儿，也没平面儿；用錾破开吧，又懒得花那么大气力，因为河滩并不甚远，随便去掮一块回来，哪一块也比它强。

无标注：句子中的词汇都很简单或者难度比较平均

1. 爸把我从床头打到床尾，外面的雨声混合着我的哭声。

2. 当山间的清泉奔向溪流，当哗啦啦的大雨砸向屋顶，当小水滴清脆地落到盛水的盆里，你总该听到些什么了吧？

由于复杂度标注具有较强的主观性，以及和英文相比中文词汇标注还隐性包含了词汇边界判定的环节，部分标注结果存在标注重叠、标注冗余、标注类别差异等现象，我们对语义不完整的标注进行补充，拆分去除了冗余标注。在合并此词汇复杂度类别的环节中，标注员都来自大学生群体，母语水准要高于一般母语者，存在向下评估词汇复杂度的可能性，因此保留复杂度最高的标签。

我们选择在现有的标注数据上构造负例样本。在句子分词后未标注词汇的集合中按照词频进行排序，选取与正例词汇等量的频率最低的词汇作为负例，标记为“Normal”类别。最终RCWI-Dataset中包含40613句子样本，其中Complex标签19218条、Hard标签1169条、Normal标签20226条，数据实例如下：

数据示例：

ID1 据王粲的《英雄记钞》说，诸葛亮与徐庶、石广元、孟公威等人一道游学读书，三人务于精熟，而亮独观其大略。 Hard 1 3 王粲

ID2 据王粲的《英雄记钞》说，诸葛亮与徐庶、石广元、孟公威等人一道游学读书，三人务于精熟，而亮独观其大略。 Complex 37 41 务于精熟

ID3 据王粲的《英雄记钞》说，诸葛亮与徐庶、石广元、孟公威等人一道游学读书，三人务于精熟，而亮独观其大略。 Normal 28 30 一道

4. 总结

针对中文词汇复杂度评估领域相关资源的不足，我们构建了中文词汇相对复杂度评估数据集RCWI-Dataset，该数据集包含多样的词汇复杂度信息，为中文词汇复杂度评估领域提供数据支撑。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。