论文浅尝 | KnowEdu: 一个自动构建教育知识图谱的系统

笔记整理 | 崔凌云,天津大学硕士

链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8362657

动机

基于知识图的广泛应用和在教育领域日益增长的需求,作者提出了一个名为KnowEdu的系统,以自动构建教育知识图。通过利用教育领域的异构数据(如教学数据和学习评估数据),该系统首先提取科目或课程的概念,然后确定这些概念之间的教育关系。更具体地说,它在教学数据上使用神经序列标记算法来提取教学概念,并在学习评估数据上使用概率关联规则挖掘来识别具有教育意义的关系。

亮点

MCCF的亮点主要包括:(1)提出了一个新的和实用的系统来自动构建教育知识图,它利用异构数据,通常包括教学数据和学习评估数据,以提取教学概念和识别重要的教育关系;(2)考虑到教学概念的教育目的,作者建议将递归神经网络模型应用于教学数据(如递归神经网络模型)来完成教学概念提取任务。这是第一次将神经序列标记应用于教育领域的实体提取中的工作;(3)所期望的教育关系与可以从文本语料库中正确识别的通用知识图中的传统关系有很大上的区别。在这项工作中,作者特别利用了基于概念的学生评估数据,在其上执行概率关联规则挖掘来推断所需的关系;

概念及模型

KnowEdu系统层次结构主要由教学概念提取模块和教学关系识别模块两个模块组成过拟合问题并加速优化。

模型整体框架如下:

教学概念提取模块

本模块的主要目标是提取给定主题或课程的教学概念。本模块主要利用教学数据,通常包括课程标准、教科书和课程教程,这些数据通常是为了教学目的,并从教育领域收集。它们可能需要首先从打印的文档转换为机器可读的文本格式。在数据选择和格式转换后,可以部署命名实体识别技术,特别是神经序列标记来提取教学概念,该模块的关键输出是所提取的概念,它们是所构建的知识图的基石。

教育关系识别模块

本模块的主要目标是识别将教学概念互联的教育关系,以直接帮助学习和教学过程。由于教育关系更隐更抽象,本模块主要利用反映学习者认知和知识获取过程的学习评估和活动数据,采用最新的数据挖掘技术,如概率关联规则挖掘。最后,这些确定的关系将教学概念联系起来,以形成教育所需的知识图,可用于支持学习者和教师的各种应用和服务。

理论分析

实验

数据集和预处理程序

教学概念提取的数据集通常来自教学和教育来源,如课程标准、教科书和课程手册。这些材料通常被用作教学和教学实践的官方指导。作者选择了由中国教育部公布的国家中小学数学课程标准,作为主要的数据来源。

对于数据预处理步骤,系统首先使用Tika从课程标准的官方版本中提取文本,然后根据章节、段落和标点符号的特定符号进行句子分割,此外,非文本信息将自动删除图像和表的边界。随后,该系统利用一个中文分词的开源库进行分字。最后,从原始数据集中获得了1847个句子和36697个单词。

对概念提取的评价

为了获得模型评估的基本真相,作者邀请了北京师范大学两位参与起草国家课程标准的领域专家来标记所有的教学概念。共有4251个单词标记为B-CP,969个单词标记为I-CP。两位专家的标签与相应的kappa值为0.945。

如果先决条件关系存在从概念A到概念B,我们称之为积极的关系,而如果没有先决条件关系,我们称之为负关系。只有当两个专家都注释它为正关系,并且kappa值为0.896时,才会确定正关系。

总结

我们介绍并实现了知识图系统,它可以自动构建教育知识图。它从异质数据源中提取教学概念和隐式教育关系,主要包括标准课程数据和学习评估数据。针对教学概念的提取,采用了神经网络模型,并针对前提关系的识别,引入了概率关联规则的挖掘。我们通过建立一个数学知识图来证明了该系统的前景,当50%的训练数据时,B-CP提取的F1分数超过0.75,AUC达到0.95。在更广泛的画布上,这个KnowEdu系统已经证明了为不同学科或课程自动构建专用知识图的可行性和有效性。各种个性化的教学和学习服务,如学习障碍的在线诊断和学习资源的智能推荐,可以使用这些个性化的知识图来开发,特别是针对下一代的MOOC平台。

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478119.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我在斯坦福做科研的碎碎念

文 | Jazon编 | 小轶大家好,我是 Jazon。作为 AI 科研工作者,我们的目光不该只聚焦在开发新技术、刷榜打 SoTA 上。学界如职场,还有很多技术之外的软实力需要培养。这篇文章里,我想以我个人的经历作为切入点,聊一聊与此…

论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...

笔记整理 | 李爽,天津大学链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp?tp&arnumber9359364动机知识图谱 (KG) 嵌入旨在研究嵌入表示以保留 KG 的固有结构。图神经网络(GNN)作为一种有效的图表示技术&…

分布式队列编程优化篇

“分布式队列编程”是一个系列文,之前我们已经发布了《分布式队列编程模型、实战》,主要剖析了分布式队列编程模型的需求来源、定义、结构以及其变化多样性;根据作者在新美大实际工作经验,给出了队列式编程在分布式环境下的一些具…

LeetCode 443. 压缩字符串(双指针)

1. 题目 给定一组字符,使用原地算法将其压缩。 压缩后的长度必须始终小于或等于原数组长度。 数组的每个元素应该是长度为1 的字符(不是 int 整数类型)。 在完成原地修改输入数组后,返回数组的新长度。 进阶: 你能…

程序员在体制内的工作与生活是怎样的?

文 | 森林鱼(转载于公众号:森林鱼的时光)前言这篇文章原本是要在公众号上更新的,但考虑到修改问题,还是放在了这边。公众号那边会放一个最终相对完整的版本,日常更新与整理的话还是会在这边。主要是想尽量客…

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE(CCKS2021)...

OpenKG地址:http://openkg.cn/dataset/c-clueGitHub地址:https://github.com/jizijing/C-CLUE网站地址:http://152.136.45.252:60002/pages/login.html开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者&…

谷歌:一篇论文,让研究者吃我三份安利

文 | 白鹡鸰想用Transformer做CV编 | 小轶想用Transformer做NLP前言计算机视觉、机器学习,这两个词会让你想到什么?相信绝大多数人第一反应都是CNN,而持续关注这些领域发展的人,则会进一步联想到近几年大火的Transformer&#xff…

LeetCode 290. 单词规律(哈希)

1. 题目 给定一种规律 pattern 和一个字符串 str ,判断 str 是否遵循相同的规律。 这里的 遵循 指完全匹配,例如, pattern 里的每个字母和字符串 str 中的每个非空单词之间存在着双向连接的对应规律。 示例1: 输入: pattern "abba&q…

开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/k-zslGitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:浙江大学(耿玉霞、陈卓、陈华钧)&#xff0c…

LeetCode 1022. 从根到叶的二进制数之和(递归)

1. 题目 给出一棵二叉树,其上每个结点的值都是 0 或 1 。每一条从根到叶的路径都代表一个从最高有效位开始的二进制数。例如,如果路径为 0 -> 1 -> 1 -> 0 -> 1,那么它表示二进制数 01101,也就是 13 。 对树上的每一…

别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!

文 | Yimin_饭煲编 | 炼丹学徒如果评选NLP圈的2020年度十大关键词,那么GPT-3(Language Models are Few shot Learners) 一定榜上有名。GPT-3庞大的参数量,优异的性能至今仍让圈内圈外人都津津乐道,而OpenAI发布的OpenAI API&#…

大数据:任务调度,手把手教你

大数据:任务调度https://blog.csdn.net/qq_43713049/article/details/116985497 文章目录 任务调度一、任务流调度的需求二、任务流调度的工具三、Oozie的简介四、Oozie的2种使用方式五、WorkFlow 与 Fork 和 Join六、SubFlow:子工作流七、定时调度的实现…

人脸识别 | 你的论文离CVPR , 还有多远?

最近,一则人脸识别安全性问题的新闻上了热搜。(图片来自网络)虽然让不少人产生了“人在家中坐,债从天上来”的担忧,但也不由感叹人脸识别的发展与普及。人脸识别发展至今,已经在众多领域中占领重要地位。这…

LeetCode 455. 分发饼干(贪心)

1. 题目 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。对每个孩子 i ,都有一个胃口值 gi ,这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j ,都有一个尺…

开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/sgsumGitHub:https://github.com/krystalan/SGSum开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:苏州大学(王佳安、张汀依、瞿剑峰、李直旭&#xff09…

消息队列设计精要

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。 当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka&#x…

数学教育中的AI:NeurIPS’21 Workshop 欢迎投稿!

Workshop主页:https://mathai4ed.github.io数学推理是一种人类独特的智慧能力,也是人类在对科学和知识的探寻道路上不可缺少的基石。不过,数学学习通常是一项极具挑战性的过程,因为它依赖于指导者对学习内容的设计、教学和评估。从…

LeetCode 696. 计数二进制子串

1. 题目 给定一个字符串 s,计算具有相同数量0和1的非空(连续)子字符串的数量,并且这些子字符串中的所有0和所有1都是组合在一起的。 重复出现的子串要计算它们出现的次数。 示例 1 : 输入: "00110011" 输出: 6 解释: 有6个子串具有相同数量…

论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答

论文题目:Zero-shot Visual Question Answering using Knowledge Graph本文作者:陈卓(浙江大学)、陈矫彦(牛津大学)、耿玉霞(浙江大学)、Jeff Z. Pan(爱丁堡大学)、苑宗港(华为)、陈华钧(浙江大学)发表会议:ISWC 2021论文链接:htt…

Java 8系列之重新认识HashMap

HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK(Java Developmet Kit)版本的更新,JDK1.8对HashMap底层的实现进行了优化,例如引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7和JDK1.8的区别&…