开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/csdqa

开源地址:http://zscl.xjtudlc.com:888/CSDQA/

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:西安交通大学(王绍伟、张玲玲、杨祎、胡欣、秦涛、魏笔凡、刘均)


1. 摘要

CSDQA (Computer Science Diagram Question Answering)数据集是计算机科学领域几何图形类示意图问答数据集,由陕西省天地网技术重点实验室贡献。本数据集示意图来自教科书、百科、博客等教育场景,包含十二个类别共计1294张示意图,3494个问答对以及超过20000条对象信息标注。该数据集能为示意图问答等相关研究提供良好的数据支持。 

2. 示意图

示意图明确表达某个特定主题或概念,传递可推理的规则或逻辑信息,使用抽象的图形化符号而不是真实图片来呈现元素的一种表示。相比自然图像,示意图不包含阴影、纹理、背景等,视觉要素表达更加凝练简洁,包含丰富的信息。根据构成要素,示意图可划分为两类。已有研究主要集中于第一类:来自生物学、地理学等自然学科示意图,其对象主要由抽象化的动物、植物等事物构成,表达方式与自然图类似。本数据集聚焦于第二类:几何图形类示意图,其对象主要由圆形、矩形、箭头等符号组成,如图1所示。该类示意图抽象化程度更高,对象表达方式多样,包含复杂的逻辑结构,例如二叉树中根节点与叶节点间具有父子拓扑关系。理解该类示意图具有极大挑战,也是实现智慧教育等应用的重要基础。

41ca8a0af985315ee7816c4893226703.png

图1 CSDQA全类别示意图样例

3. 数据集

示意图来源稀缺,为了收集到高质量的数据,CSDQA采取了多来源、半自动化的收集方式。针对教科书、百科等来源进行人工收集,针对网络爬取数据构建过滤器滤除低质量样本。

为了适应示意图多样的表达方式和复杂的逻辑,我们设计了多维度的数据集标注规则,包含:全局属性-对象属性-关系属性,如图2所示。其中全局属性宏观描述了示意图所表达的知识;后两者则更细粒度描述示意图中的对象和对象间的关系信息。

ff8436c060a82fff7dd1e3777b8ea8e0.png

图2 CSDQA示意图属性标注样例

示意图问答任务是指:计算机在给定一张示意图和相关的知识文本内容下回答自然语言问题。在数据集中,知识文本是以是示意图类别为关键字爬取的维基百科相关信息。我们共设计了两种难度的问题。简单问题:计算机仅需要一次推理即可给出答案;复杂问题:计算机需要两次推理才能给出答案,在所有标注问题中,复杂问题所占比为22.98%。形式上,标注的问题还可划分为四选一问题和判断题,示例如图3所示。

9667af7e1b99ba0420909793bd005f76.png

图3 CSDQA示意图问答标注样例

相较于已有的示意图数据集,CSDQA的特点在于:

(1)CSDQA是首个包含高质量几何图形类示意图的数据集,填补了示意图数据集在高等教育领域的空白。

(2)CSDQA包含细粒度的标注信息和区分难度及类别的问答对,可适应多样化的示意图理解相关任务。

4. 结语及致谢

为推进课程领域示意图研究,我们提出了示意图问答任务,并为社区贡献了一个人工标注的计算机科学领域示意图问答数据集。在此,感谢西安交通大学刘均教授、张玲玲老师在数据集构建方案中提供的宝贵意见,感谢西安交通大学计算机科学与技术学院的杨祎、吴文俊、胡欣等同学在数据标注过程中提供的支持。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

c9a0c39bbf86148827b0d49a62a75345.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据驱动精准化营销在大众点评的实践

精准化营销一直以来都是互联网营销业务在细分市场下快速获取用户和提高转化的利器。在移动互联网爆发的今天,数据量呈指数增长,如何在移动和大数据场景下用数据驱动进行精准营销,从而提高营销效能,成为营销业务部门的主要挑战之一…

LeetCode 1104. 二叉树寻路(数学位运算)

1. 题目 在一棵无限的二叉树上,每个节点都有两个子节点,树中的节点 逐行 依次按 “之” 字形进行标记。 如下图所示,在奇数行(即,第一行、第三行、第五行……)中,按从左到右的顺序进行标记&am…

再介绍一篇最新的Contrastive Self-supervised Learning综述论文

文 | 对白源 | 对白的算法屋自监督学习(Self-supervised learning)最近获得了很多关注,因为其可以避免对数据集进行大量的标签标注。它可以把自己定义的伪标签当作训练的信号,然后把学习到的表示(representation&#…

论文浅尝 | 重新审视语言模型与知识库的关系

笔记整理:陈卓,浙江大学在读博士,主要研究方向为低资源学习和知识图谱论文链接:https://arxiv.org/pdf/2106.09231发表会议:ACL 2021动机这篇文章类似于是批判性的文章,反驳的之前EMNLP2019的一篇文章knowl…

Spark在美团的实践

本文已发表在《程序员》杂志2016年4月期。 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提…

LeetCode 958. 二叉树的完全性检验(层序遍历)

1. 题目 给定一个二叉树,确定它是否是一个完全二叉树。 百度百科中对完全二叉树的定义如下: 若设二叉树的深度为 h,除第 h 层外,其它各层 (1~h-1) 的结点数都达到最大个数,第 h 层所有的结点都连续集中在…

论文浅尝 | 通过学习中间步骤的监督信号改进多跳知识库问答

笔记整理:陈永锐,东南大学博士论文链接:https://arxiv.org/pdf/2101.03737.pdf概述该论文处理多跳知识库问答(KBQA)任务,主要关注训练过程在中间步骤缺乏监督信号的挑战。由于这一挑战,多跳 KBQ…

打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式

文 | SeverusNLP的研究者们一直都在尝试,怎么样让模型像人类一样,学会“知识”。而最直观的想法莫过于将人类已经总结出来供机器解读的“知识体系”,及其嵌入表示作为额外的特征添加到NLP模型之中。至少,从直觉上看,将…

分布式块存储系统Ursa的设计与实现

引言 云硬盘对IaaS云计算平台有至关重要的作用,几乎已成为必备组件,如亚马逊的EBS(Elastic Block Store)、阿里云的盘古、OpenStack中的Cinder等。云硬盘可为云计算平台带来许多优良特性,如更高的数据可靠性和可用性、灵活的数据快照功能、更…

LeetCode 919. 完全二叉树插入器(层序遍历队列)

1. 题目 完全二叉树是每一层(除最后一层外)都是完全填充(即,结点数达到最大)的,并且所有的结点都尽可能地集中在左侧。 设计一个用完全二叉树初始化的数据结构 CBTInserter,它支持以下几种操作…

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/rcwi-dataset开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:北京语言大学(阙孟溪、张宇飞、于东)1. 摘要中文领域的词汇复杂度评估资源较为匮乏&#x…

提升 NLP 实战技能的一点建议

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

深入FFM原理与实践

FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进…

LeetCode 993. 二叉树的堂兄弟节点(层序遍历)

文章目录1. 题目2. 解题2.1 层序遍历2.2 递归查找1. 题目 在二叉树中,根节点位于深度 0 处,每个深度为 k 的节点的子节点位于深度 k1 处。 如果二叉树的两个节点深度相同,但父节点不同,则它们是一对堂兄弟节点。 我们给出了具有…

论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架

笔记整理:孙悦,天津大学 链接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf动机视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同,故事不仅包含事实描述,还包含未出现在图像中的想象概念。…

薅羊毛 Colab使用外部数据的7种方法!

文 | Coggle源 | Coggle数据科学Colab作为非常强大且优惠的计算平台,一直广受大家喜爱。可以随时随地使用,还有免费的GPU可以薅羊毛。那么如何在Colab中使用外部数据集,来完成竞赛呢,本文将给出几种常见的方法。方法1:…

高可用性系统在大众点评的实践与经验

背景 所谓高可用性指的是系统如何保证比较高的服务可用率,在出现故障时如何应对,包括及时发现、故障转移、尽快从故障中恢复等等。本文主要以点评的交易系统的演进为主来描述如何做到高可用,并结合了一些自己的经验。需要强调的是&#xff0c…

图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

文 | ZenMoore编 | 小轶图灵奖大佬 Geoffrey Hinton 的团队和 Google Brain 团队近日发布新工作 Pix2seq,将 CV 经典任务 目标检测 转换为了语言模型的下游任务。这就很有意思了朋友们!因为这是一个很一般化的范式!也就是说,不光是…

论文浅尝 | 异构图 Transformer

笔记整理:许泽众,浙江大学博士在读论文链接:https://arxiv.org/abs/2003.01332本文主要提出一种处理异构图的方法,所谓异构图(Heterogeneous graph)是指在一个图中会出现不同类型的边和节点的图。早期对于图…

LeetCode 1145. 二叉树着色游戏(计算节点个数)

1. 题目 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 游戏从「一号」玩家开始(「一号」玩家为红色&a…