开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/rcwi-dataset

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:北京语言大学(阙孟溪、张宇飞、于东)


1. 摘要

中文领域的词汇复杂度评估资源较为匮乏,且现有的外语数据集大多数只关注造成阅读困扰的词汇。中文相对复杂词汇识别数据集(以下简称RCWI-Dataset)为针对中文母语者构建的词汇复杂度评估资源,包含40613条样本,三种词汇复杂度类型,每条数据至少被三名中文母语标注员标注。该数据集为推动中文词汇复杂度评估任务发展提供有力支撑。

2. 词汇复杂度资源

中文词汇复杂度资源以分级词表为主,一般通过专家标注构建,数据质量高,但成本较高,规模较小。自然语言处理用的词汇复杂度资源以词汇简化、复杂词汇识别等任务为构建导向,标注句子中不能被独立理解的词汇。简单将词汇分为“复杂”或“不复杂”两类的方式无法对词汇的复杂度进行具体说明,且直接标注目标词汇的方式主观性较强。对此我们引入句子中其余词汇作为客观比较对象,对句子中超出平均难度的词汇进行标注,称为“相对复杂词汇”。此外,我们对词汇的复杂程度作出区分,与传统二值化词汇复杂度的资源相比包含更丰富的复杂度信息。

3. 数据集

我们采用唐玉玲等人构建的的汉语句子难度等级语料库作为原始语料来源,该语料库来自语文教材,涵盖科普、记叙等多种文本体裁。我们根据原始句子等级比例抽取2-4等级的句子共2万条。为了获得更加可靠和多样的标注结果,我们规定RCWI-Dataset的标注对象为:给定句子中,明显超过句子平均词汇难度的词汇和词组。若标注词汇对阅读理解造成困扰,标注为“Hard”,否则标注为“Complex”。根据试标注的结果确定了常见的三种标注情况,如表1所示。我们要求标注者在标注每条数据之前,先完成对句子的阅读以获得句子的整体词汇难度。同时,考虑上下文对词汇复杂度的影响,对于脱离当前上下文则无法准确理解的词汇,同样需要进行标注。

表1 三种常见的标注类型示例,橙色词汇为“Complex”,红色为“Hard”

Complex:能理解的但是超过句子平均词汇难度的词汇

1. 万众一心,冒着敌人的炮火,前进!

2. 正因为它不是一般的顽石,当然不能去做墙,做台阶,不能去雕刻,捶布。

Hard:阅读理解困难的词汇

1. 见到人们受苦,鲧很着急,就把天上的土偷下来,去堵塞洪水。

2. 于是,伯父家盖房,想以它垒山墙,但苦于它极不规则,没棱角儿,也没平面儿;用錾破开吧,又懒得花那么大气力,因为河滩并不甚远,随便去掮一块回来,哪一块也比它强。

无标注:句子中的词汇都很简单或者难度比较平均

1. 爸把我从床头打到床尾,外面的雨声混合着我的哭声。

2. 当山间的清泉奔向溪流,当哗啦啦的大雨砸向屋顶,当小水滴清脆地落到盛水的盆里,你总该听到些什么了吧?

由于复杂度标注具有较强的主观性,以及和英文相比中文词汇标注还隐性包含了词汇边界判定的环节,部分标注结果存在标注重叠、标注冗余、标注类别差异等现象,我们对语义不完整的标注进行补充,拆分去除了冗余标注。在合并此词汇复杂度类别的环节中,标注员都来自大学生群体,母语水准要高于一般母语者,存在向下评估词汇复杂度的可能性,因此保留复杂度最高的标签。

我们选择在现有的标注数据上构造负例样本。在句子分词后未标注词汇的集合中按照词频进行排序,选取与正例词汇等量的频率最低的词汇作为负例,标记为“Normal”类别。最终RCWI-Dataset中包含40613句子样本,其中Complex标签19218条、Hard标签1169条、Normal标签20226条,数据实例如下:

数据示例:

ID1 据王粲的《英雄记钞》说,诸葛亮与徐庶、石广元、孟公威等人一道游学读书,三人务于精熟,而亮独观其大略。   Hard 1 3 王粲

ID2 据王粲的《英雄记钞》说,诸葛亮与徐庶、石广元、孟公威等人一道游学读书,三人务于精熟,而亮独观其大略。   Complex 37 41 务于精熟

ID3 据王粲的《英雄记钞》说,诸葛亮与徐庶、石广元、孟公威等人一道游学读书,三人务于精熟,而亮独观其大略。    Normal 28 30 一道

4. 总结

针对中文词汇复杂度评估领域相关资源的不足,我们构建了中文词汇相对复杂度评估数据集RCWI-Dataset,该数据集包含多样的词汇复杂度信息,为中文词汇复杂度评估领域提供数据支撑。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

572492413bec99fa18faf4fc065a6370.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478042.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

提升 NLP 实战技能的一点建议

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

深入FFM原理与实践

FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进…

LeetCode 993. 二叉树的堂兄弟节点(层序遍历)

文章目录1. 题目2. 解题2.1 层序遍历2.2 递归查找1. 题目 在二叉树中,根节点位于深度 0 处,每个深度为 k 的节点的子节点位于深度 k1 处。 如果二叉树的两个节点深度相同,但父节点不同,则它们是一对堂兄弟节点。 我们给出了具有…

论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架

笔记整理:孙悦,天津大学 链接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf动机视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同,故事不仅包含事实描述,还包含未出现在图像中的想象概念。…

薅羊毛 Colab使用外部数据的7种方法!

文 | Coggle源 | Coggle数据科学Colab作为非常强大且优惠的计算平台,一直广受大家喜爱。可以随时随地使用,还有免费的GPU可以薅羊毛。那么如何在Colab中使用外部数据集,来完成竞赛呢,本文将给出几种常见的方法。方法1:…

高可用性系统在大众点评的实践与经验

背景 所谓高可用性指的是系统如何保证比较高的服务可用率,在出现故障时如何应对,包括及时发现、故障转移、尽快从故障中恢复等等。本文主要以点评的交易系统的演进为主来描述如何做到高可用,并结合了一些自己的经验。需要强调的是&#xff0c…

图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

文 | ZenMoore编 | 小轶图灵奖大佬 Geoffrey Hinton 的团队和 Google Brain 团队近日发布新工作 Pix2seq,将 CV 经典任务 目标检测 转换为了语言模型的下游任务。这就很有意思了朋友们!因为这是一个很一般化的范式!也就是说,不光是…

论文浅尝 | 异构图 Transformer

笔记整理:许泽众,浙江大学博士在读论文链接:https://arxiv.org/abs/2003.01332本文主要提出一种处理异构图的方法,所谓异构图(Heterogeneous graph)是指在一个图中会出现不同类型的边和节点的图。早期对于图…

LeetCode 1145. 二叉树着色游戏(计算节点个数)

1. 题目 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 游戏从「一号」玩家开始(「一号」玩家为红色&a…

常见的时间序列预测模型python实战汇总

最完整的时间序列分析和预测(含实例及代码):https://mp.weixin.qq.com/s/D7v7tfSGnoAqJNvfqGpTQA 1 时间序列与时间序列分析 在生产和科学研究中,对某一个或者一组变量 x(t)x(t) ARIMA 模型对时间序列的要求是平稳型。因此&#x…

简单复读机LR如何成为推荐系统精排之锋?

文 | 水哥源 | 知乎saying1. 众所周知, 人类(划掉)推荐的本质是复读机2. 精排之锋,粗排之柔,召回之厚3. 在推荐里谈“过拟合”很容易给我们造成心理上的松懈,导致我们忽略环境,氛围等多种因素的…

从0到1构建美团压测工具

背景 美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有: 使用一些脚本语言如:Python、Ruby等,读取线上…

论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf动机现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码…

LeetCode 222. 完全二叉树的节点个数(二分查找)

1. 题目 给出一个完全二叉树,求出该树的节点个数。 说明: 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干…

常见的统计分析方法汇总,指标对比分析、时间序列预测

常见的八种统计分析法如下: 指标对比分析法分组分析法时间数列及动态分析法指数分析法平衡分析法综合评价分析景气分析预测分析 1 比较分析法## 一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指…

这三个NLP项目写进简历,网申通过率提高50%

01三大企业级项目项目一京东智能对话系统项目项目简介:智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人&#xff0…

论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。Motivation为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨大的训练成本和存储空间。现…

LeetCode 453. 最小移动次数使数组元素相等(数学)

1. 题目 给定一个长度为 n 的非空整数数组,找到让数组所有元素相等的最小移动次数。每次移动可以使 n - 1 个元素增加 1。 示例: 输入: [1,2,3]输出: 3 解释: 只需要3次移动(注意每次移动会增加两个元素的值):[1,2,3] > [2…

性能优化模式

摘要 性能优化涉及面很广。一般而言,性能优化指降低响应时间和提高系统吞吐量两个方面,但在流量高峰时候,性能问题往往会表现为服务可用性下降,所以性能优化也可以包括提高服务可用性。在某些情况下,降低响应时间、提高…

征稿 | 国际KG大会 IJCKG 2021专辑征文

国际知识图谱联合会议(International Joint Conference on Knowledge Graphs (IJCKG 2021, 与ACM/SIGAI联合办会)今年将于12月6日-8日在线召开。Data Intelligence今年被EI数据库收录后,有幸成为大会推荐期刊,大会优秀论文将推荐在…