开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/mooper

头歌平台:https://www.educoder.net/ch/rest

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:湖南智擎科技有限公司(黄井泉),国防科技大学(刘坤佳 曾维新 廖劲智 赵翔 唐九阳 戴傲)


1. MOOPer介绍

MOOPer是一个大型在线开放实践数据集,由国防科技大学信息系统工程重点实验室贡献。MOOPer来源于大规模开放在线实践(Massive Open Online Practice,MOOP)这一概念,包含了2018-2019年间头歌平台(https://www.educoder.net)用户在线实践数据,其中用户与实践项目的辅助信息以知识图谱形式组织。

MOOPer数据集主要分为两个部分:交互数据与知识图谱。交互数据包含253万实践练习数据、2160万系统反馈数据以及1.5万论坛讨论数据。知识图谱包含11类实体,10类关系。MOOPer数据集结构如图1所示。

图1. MOOPer数据集结构

2. MOOPer构建

2.1 交互数据采集

用户与学习材料的交互被分为三组:用户行为、用户反馈和系统反馈。

用户行为:专注于实践练习的过程——用户答题正误情况,尝试次数,以及是否参考了答案等等。详尽的交互记录将最大程度再现用户交互过程,从而为进一步研究提供了更全面的信息。值得注意的是,所有记录都是匿名的,以保护用户的隐私。

用户反馈:提供用户对交互过的实践练习的评分。显示了用户对不同难度和问题类型的学习材料的偏好。此外,还提供了他们在论坛中的讨论内容。闲聊内容可以用来调查他们的学习状况和学习满意度,而问答讨论则反映了他们在知识掌握上的“盲点”。此外,用户在论坛的活跃度也是推测其心理状态和学习方式的重要指标。

系统反馈:提供系统对用户提交结果反馈——他们的代码是否有语法错误,提交代码的编译结果,实际输出和预期输出之间的差异等等。此类信息可以用于了解用户的学习能力和知识掌握情况。

2.2 知识图谱构建

丰富的辅助信息在实际任务中对于提升模型性能非常有用。MOOPer提供了丰富的实体、关系与属性信息,包括实践项目的介绍说明和具体内容等。知识图谱的结构如图1左图所示。 

学习资源之间存在自然的层次结构。一门课程可能包括几个章节和实践项目, 而一个实践项目由几个关卡组成,每个关卡又涵盖了不同的知识点。此外,不同课程可能会共享同样的实践项目,不同的关卡可能共享相同的知识点。这些相互引用进一步将层次结构扩展到图。

3. MOOPer规模和用途

MOOPer提供丰富的交互数据和全面的辅助信息,不仅可以支持多种任务,还为后续对不同领域的任务和模型进行融合提供了数据支持。

Dropout Prediction 辍学预测。根据学生的早期在课程学习中的行为数据预测其放弃该门课程的可能性。

Knowledge Tracing 知识追踪。根据学生过去的答题情况对学生的知识掌握情况进行建模,从而得到学生当前知识状态表示的一种技术。

Recommendation 学习材料推荐。根据用户的交互记录对用户喜好进行个性化建模,为其推荐感兴趣的学习材料(如课程、章节、知识点、实训、关卡等)。

Intelligent Tutoring 智能导学评估。建模学习者知识状态,模拟人类的1v1教学为用户提供学习指导。

  除此之外,由于MOOPer提供丰富的辅助信息知识图谱,因此可以支持不同任务的融合。可行的思路之一是将知识图谱表示学习与上述任务进行结合,例如可以将知识图谱嵌入(Knowledge Graph Embedding,KGE)、图神经网络(Graph Neural Network,GNN)、图卷积神经网络(Graph Convolution Graph)等算法与教育数据结合,使用辅助信息提升模型效果。

4. 结语与致谢

我们提出了MOOPer,一个以实践为中心的数据集,专注于在线学习中的实践过程,其中丰富的辅助信息被组织为知识图谱形式。灵活的数据组织形式使其可以支持教育领域多种数据挖掘任务,并且促进了这些任务与知识图谱研究的最新成果融合。

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python实现文件传输

发送者: send_file.py def send_file(filename: str "mytext.txt", testing: bool False) -> None:import socketport 12312 # Reserve a port for your service.sock socket.socket() # Create a socket objecthost socket.gethostname() # …

不同于NLP,数据驱动、机器学习无法攻克NLU,原因有三

文 | Walid S. Saba源 | 机器之心自然语言理解(NLU)是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。近年来,机器学习虽然被广泛使用,但是却不能很好的解决自然语言理解问题,其中可能涉…

分布式系统互斥性与幂等性问题的分析与解决

随着互联网信息技术的飞速发展,数据量不断增大,业务逻辑也日趋复杂,对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可扩展等目标就显得越发重要。为了解决这一系列问题,系统架构也…

开源开放 | 多模态实体链接数据集MELBench(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/melbenchGitHub地址:https://github.com/seukgcode/MELBench开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:东南大学(汪鹏、周星辰、邓臻凯、李国正、谢…

LeetCode 1219. 黄金矿工(回溯)

文章目录1. 题目2. 回溯DFS解题1. 题目 你要开发一座金矿,地质勘测学家已经探明了这座金矿中的资源分布,并用大小为 m * n 的网格 grid 进行了标注。每个单元格中的整数就表示这一单元格中的黄金数量;如果该单元格是空的,那么就是…

发现一篇专门吐槽 NLP 内卷现状的 ACL 论文 ...

文 | Severus编 | 小轶随着大模型的发展,NLP领域的榜单可说是内卷到了无以复加,现在去浏览各大公开榜单,以至于各个比赛,随处可见BERT、RoBERTa的身影,甚至榜单中见到各大large模型的集成版也并非偶然。在发论文的时候…

大促活动前团购系统流量预算和容量评估

本文整理自美团点评技术沙龙第11期:移动端测试分享。 美团点评技术沙龙由美团点评技术团队主办,每月一期。每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 目前沙龙会分别在北京、上海和厦门等…

论文浅尝 | 融合多层次领域知识的分子图对比学习

笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习论文地址:https://arxiv.org/pdf/2106.04509.pdf动机目前基于图的对比学习有以下几个问题:不同领域的图,(比如social network和分子图&am…

LeetCode 1028. 从先序遍历还原二叉树(栈)

文章目录1. 题目2. 栈解题1. 题目 我们从二叉树的根节点 root 开始进行深度优先搜索。 在遍历中的每个节点处,我们输出 D 条短划线(其中 D 是该节点的深度),然后输出该节点的值。(如果节点的深度为 D,则其…

python 怎么将列表中的字典安照某一个key输出到csv,python如何把字典数据存储进csv文件

示例代码 import csv fieldnames["A","B","C"]#数据列名dicts[{A: 1, B: 2, C:3},{A: 2, B: 3, C:4},{A: 3, B: 4, C:5},{A: 4, B: 5, C:6},{A: 5, B: 6, C:7},{A: 9, B: 7, C:8},]with open(test.csv, a, newline,encodingutf_8_sig) as f: wr…

基于深度学习方法的图像分割,差距不止一点点

图像分割(image segmentation)技术是计算机视觉领域的一个重要的研究方向,图像分割是计算机视觉中的一个关键过程。它包括将视觉输入分割成片段以简化图像分析。片段表示目标或目标的一部分,并由像素集或“超像素”组成。图像分割…

Java Hotspot G1 GC的一些关键技术

前言 G1 GC,全称Garbage-First Garbage Collector,通过-XX:UseG1GC参数来启用,作为体验版随着JDK 6u14版本面世,在JDK 7u4版本发行时被正式推出,相信熟悉JVM的同学们都不会对它感到陌生。在JDK 9中,G1被提议…

论文浅尝 | AutoETER: 用于知识图谱嵌入的自动实体类型表示

论文链接:https://arxiv.org/pdf/2009.12030.pdf动机传统的KGE使用附加的类型信息改善实体的表示,但是这些方法完全依赖于显式类型,或者忽略了特定于各种关系的不同类型表示,并且这些方法目前都不能同时推断出对称性、反演和组成的…

LeetCode 1029. 两地调度(贪心)

文章目录1. 题目2. 贪心1. 题目 公司计划面试 2N 人。第 i 人飞往 A 市的费用为 costs[i][0],飞往 B 市的费用为 costs[i][1]。 返回将每个人都飞到某座城市的最低费用,要求每个城市都有 N 人抵达。 示例: 输入:[[10,20],[30,2…

百面机器学习-第一章特征工程

原文链接:https://www.jianshu.com/p/355c4001ca42 前言 如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。…

推荐几个NLP出论文的好方向!!

如果你准备发NLP方向的论文,或准备从事科研工作或已在企业中担任NLP算法岗的工作。那么我真诚的向大家推荐,贪心学院《自然语言处理高阶研修班》,目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解,四…

Android热更新方案Robust

美团是中国最大的O2O交易平台,目前已拥有近6亿用户,合作各类商户达432万,订单峰值突破1150万单。美团App是平台主要的入口之一,O2O交易场景的复杂性决定了App稳定性要达到近乎苛刻的要求。用户到店消费买优惠券时死活下不了单&…

会议研讨 | TF45: 知识图谱新技术、新场景、新应用

基于“新基建”面向新产业、新业态和新模式的背景下,知识图谱作为人工智能的重要基石正在火热发展中。新的知识图谱技术在新的场景和应用中使人工智能从感知智能逐渐向认知智能过渡。知识图谱与产业的结合愈加紧密,除了在搜索与推荐、知识问答等通用领域…

LeetCode 653. 两数之和 IV - 输入 BST(二叉搜索树迭代器双指针)

文章目录1. 题目2. 解题1. 题目 给定一个二叉搜索树和一个目标结果,如果 BST 中存在两个元素且它们的和等于给定的目标结果,则返回 true。 案例 1: 输入: 5/ \3 6/ \ \ 2 4 7Target 9 输出: True案例 2: 输入: 5/ \3 6/ \ \ 2 4 7Tar…

盘点来自工业界的GPU共享方案

文 | 阎姝含源 | 极市平台进年来工业界一直孜孜不倦地寻求提升GPU利用率的方案,能被更多用户理解和使用的GPU共享走进工程师的视野中。本文将总结目前有公开PR的、来自工业界的部分GPU容器计算共享方案,看看工业界对GPU共享的定位和需求。本文将依旧着眼…