开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/diakg

阿里云天池:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:妙健康(常德杰、刘朝振、刘利平、李栋栋、李伟),阿里云(陈漠沙),清华大学(许斌)



DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction

论文来源:CCKS 2021

论文链接:https://arxiv.org/pdf/2105.15033.pdf

1. 摘要

为了加速医学领域知识的研究,精准化健康管理平台妙健康联合阿里云天池平台、 清华大学合作提出了一个高质量的中文糖尿病知识图谱数据集DiaKG,该数据集共包含22050个实体和6890个关系,目前是中文领域首个糖尿病相关的标注数据集。

2. 背景

糖尿病(Diabetes)是代谢性疾病,也是慢性疾病,中国是世界上糖尿病患者最多的国家,病人达到1.1亿,每年有130万人死于糖尿病及其相关疾病。糖尿病病因复杂,表现出的症状多种多样,这为糖尿病的诊断和治疗带来了很大的困难。国务院颁布的《“健康中国2030”规划纲要》中,也将糖尿病列入到重点监控的慢性病中。知识图谱在构造信息和概念知识的建模中已经被证明是有效的,特别是在医学领域,为了促进医学自然语言处理技术在糖尿病文本领域的应用以及糖尿病知识图谱的构建,我们推出了DiaKG。

3. 数据集

3.1 数据来源

该数据集来源于公开发表的41篇糖尿病指南和共识,涵盖了近年来最广泛的研究内容和热点领域,包括基础研究、临床研究、药物使用、临床病例、诊疗方法等等,是构建糖尿病知识库的权威资源。

3.2 标注规范

本数据集标注由两位经验丰富的内分泌专家设计了标注指南。本指南侧重于“实体”和“关系”,因为这两种类型是知识图谱的基本元素。共定义了18类实体类型和15类医学关系。实体关系类型定义和示例如表1和表2:

表1:  实体类型定义和示例

表2: 关系类型定义和示例

3.3 标注过程

首先通过OCR工具将原始的PDF专家指南文件转换为纯文本格式,之后由标注人员对OCR识别结果进行校正,诸如“β细胞”被识别为“B细胞”,确保识别出来的文字和符号都是正确的。因为本数据集是侧重文本的,因此原始PDF中出现的表格、图表等信息均做了过滤,仅留下文本信息作标注。

标注人员由制定标注规范的2名内分泌科专家和6名医学院研究生来完成。此外为了提高标注数据的可用性,1名AI专家也参与标注过程,算法专家会从模型的视角给给予标注人员直接的反馈。

标注过程分为试标注(Trail Annotation)、正式标注和质检三步。试标注阶段的反馈信息会汇总给两名医学专家用于优化标注规范,通过多轮标注最终得到了人工标注的高质量表糖尿病知识图谱数据集。标注规范见下图:

图1:DigKG标注流程示意图

3.4 数据集统计信息

该数据集共包含22050个实体和6890个关系。具体类别统计信息如表3和表4:

表3: DiaKG实体信息统计

表4: DiaKG关系信息统计

注:Avg Cross-sentence Number表示组成关系的头、尾实体所分布句子的跨句长度。

3.5 数据集特点

相比其他医疗数据集,DiaKG有以下两个特点:

1. 实体数据可能由很长的序列span组成,如表3所示,“发病机理(pathogenesis)”平均长度是10.3个中文字符,对常规的NER模型是个挑战;

2. 组成关系的两个实体跨句子分布,平均跨句长度为2.3,头尾实体跨句子分布是关系抽取任务的难点,也是近年来的关系抽取的研究热点。

希望DiaKG的推出能进一步推动中文医学文本信息抽取技术的发展。有关DiaKG更详细的信息,请读者们参考CCKS 2021上录用发表的论文“DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction”。

4. 结语

知识图谱技术的研究和应用具有重要意义。在医疗健康领域的AI应用,事关人的生命健康,更依赖于专业、准确的知识图谱来响应用户的自然语言请求,实现反馈。比如,智能问诊应用可依据医药健康领域的知识库对患者的情况进行初步诊断。我们希望该数据集的发布能够帮助构建糖尿病知识图谱,促进基于人工智能的应用的发展。

5. 致谢

本论文由妙健康常德杰负责论文撰写,刘朝振提供算法实验指导,刘利平、李栋栋和李伟负责模型实验以及部分论文章节的撰写。特别感谢阿里云高级算法专家陈漠沙提供数据集构建思路和写作指导,清华许斌教授最终论文的审核。最后感谢标注专家的辛勤细致的付出!


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478179.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 501. 二叉搜索树中的众数(中序遍历)

文章目录1. 题目2. 中序遍历1. 题目 给定一个有相同值的二叉搜索树(BST),找出 BST 中的所有众数(出现频率最高的元素)。 假定 BST 有如下定义: 结点左子树中所含结点的值小于等于当前结点的值 结点右子树…

开源开放 | 移动应用知识图谱MAKG(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/makgGitHub地址:https://github.com/Everglow123/MAKGMAKG网站:http://www.makg.com.cn开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:东南大学(周恒、…

恕我直言,你的实验结论可能严重依赖随机数种子!

文 | python编 | 小轶God does not play dice with the universe ......But BERT Does !包括BERT在内的预训练模型已经是现今NLP工作的标配。但你有没有考虑过,这些工作的实验结论可能都是虚假的?在 Bertology 中,大家从 huggingface 上下载 …

Spring MVC注解故障追踪记

Spring MVC是美团点评很多团队使用的Web框架。在基于Spring MVC的项目里,注解的使用几乎遍布在项目中的各个模块,有Java提供的注解,如:Override、Deprecated等;也有Spring提供的注解,如:Control…

LeetCode 951. 翻转等价二叉树(递归)

文章目录1. 题目2. 递归解题1. 题目 我们可以为二叉树 T 定义一个翻转操作,如下所示:选择任意节点,然后交换它的左子树和右子树。 只要经过一定次数的翻转操作后,能使 X 等于 Y,我们就称二叉树 X 翻转等价于二叉树 Y…

开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/mooper头歌平台:https://www.educoder.net/ch/rest开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:湖南智擎科技有限公司(黄井泉)&#xff0…

python实现文件传输

发送者: send_file.py def send_file(filename: str "mytext.txt", testing: bool False) -> None:import socketport 12312 # Reserve a port for your service.sock socket.socket() # Create a socket objecthost socket.gethostname() # …

不同于NLP,数据驱动、机器学习无法攻克NLU,原因有三

文 | Walid S. Saba源 | 机器之心自然语言理解(NLU)是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。近年来,机器学习虽然被广泛使用,但是却不能很好的解决自然语言理解问题,其中可能涉…

分布式系统互斥性与幂等性问题的分析与解决

随着互联网信息技术的飞速发展,数据量不断增大,业务逻辑也日趋复杂,对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可扩展等目标就显得越发重要。为了解决这一系列问题,系统架构也…

开源开放 | 多模态实体链接数据集MELBench(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/melbenchGitHub地址:https://github.com/seukgcode/MELBench开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:东南大学(汪鹏、周星辰、邓臻凯、李国正、谢…

LeetCode 1219. 黄金矿工(回溯)

文章目录1. 题目2. 回溯DFS解题1. 题目 你要开发一座金矿,地质勘测学家已经探明了这座金矿中的资源分布,并用大小为 m * n 的网格 grid 进行了标注。每个单元格中的整数就表示这一单元格中的黄金数量;如果该单元格是空的,那么就是…

发现一篇专门吐槽 NLP 内卷现状的 ACL 论文 ...

文 | Severus编 | 小轶随着大模型的发展,NLP领域的榜单可说是内卷到了无以复加,现在去浏览各大公开榜单,以至于各个比赛,随处可见BERT、RoBERTa的身影,甚至榜单中见到各大large模型的集成版也并非偶然。在发论文的时候…

大促活动前团购系统流量预算和容量评估

本文整理自美团点评技术沙龙第11期:移动端测试分享。 美团点评技术沙龙由美团点评技术团队主办,每月一期。每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 目前沙龙会分别在北京、上海和厦门等…

论文浅尝 | 融合多层次领域知识的分子图对比学习

笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习论文地址:https://arxiv.org/pdf/2106.04509.pdf动机目前基于图的对比学习有以下几个问题:不同领域的图,(比如social network和分子图&am…

LeetCode 1028. 从先序遍历还原二叉树(栈)

文章目录1. 题目2. 栈解题1. 题目 我们从二叉树的根节点 root 开始进行深度优先搜索。 在遍历中的每个节点处,我们输出 D 条短划线(其中 D 是该节点的深度),然后输出该节点的值。(如果节点的深度为 D,则其…

python 怎么将列表中的字典安照某一个key输出到csv,python如何把字典数据存储进csv文件

示例代码 import csv fieldnames["A","B","C"]#数据列名dicts[{A: 1, B: 2, C:3},{A: 2, B: 3, C:4},{A: 3, B: 4, C:5},{A: 4, B: 5, C:6},{A: 5, B: 6, C:7},{A: 9, B: 7, C:8},]with open(test.csv, a, newline,encodingutf_8_sig) as f: wr…

基于深度学习方法的图像分割,差距不止一点点

图像分割(image segmentation)技术是计算机视觉领域的一个重要的研究方向,图像分割是计算机视觉中的一个关键过程。它包括将视觉输入分割成片段以简化图像分析。片段表示目标或目标的一部分,并由像素集或“超像素”组成。图像分割…

Java Hotspot G1 GC的一些关键技术

前言 G1 GC,全称Garbage-First Garbage Collector,通过-XX:UseG1GC参数来启用,作为体验版随着JDK 6u14版本面世,在JDK 7u4版本发行时被正式推出,相信熟悉JVM的同学们都不会对它感到陌生。在JDK 9中,G1被提议…

论文浅尝 | AutoETER: 用于知识图谱嵌入的自动实体类型表示

论文链接:https://arxiv.org/pdf/2009.12030.pdf动机传统的KGE使用附加的类型信息改善实体的表示,但是这些方法完全依赖于显式类型,或者忽略了特定于各种关系的不同类型表示,并且这些方法目前都不能同时推断出对称性、反演和组成的…

LeetCode 1029. 两地调度(贪心)

文章目录1. 题目2. 贪心1. 题目 公司计划面试 2N 人。第 i 人飞往 A 市的费用为 costs[i][0],飞往 B 市的费用为 costs[i][1]。 返回将每个人都飞到某座城市的最低费用,要求每个城市都有 N 人抵达。 示例: 输入:[[10,20],[30,2…