图谱实战 | 深度应用驱动的医学知识图谱构建

fd07478fc764e89c32c508f5515d2ba4.png

分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任

编辑整理:李杰 京东

出品平台:DataFunTalk

导读:数研院这些年在知识图谱建设上取得了丰硕成果,今天我们将图谱构建过程中的经验、心得分享给大家,欢迎大家讨论交流。本次分享的题目为:深度应用驱动的医学知识图谱构建,主要内容包含4方面:

  • 国内外医学知识图谱发展情况

  • 医学知识图谱的领域特征和应用需求

  • 数研院医学知识图谱构建:模型建立、“七巧板”本体术语集构建、“汇知”图谱构建

  • 医学知识图谱应用案例

01

国内外医学知识图谱发展情况

1. 知识图谱概念

知识图谱广义概念:作为一种技术体系,指大数据知识工程的一系列代表性技术的总称。

知识图谱狭义概念:作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体、概念及其之间的各种语义关系。如下图中的二甲双胍知识图谱片段。

7cdff47954ced1ba8a9a51c72a7df9a3.png

2. 国外医学知识图谱

UMLS:由美国国家医学图书馆自1986年起研究和开发的一体化医学语言系统,包含超级词表、语义网络、专业词典和词汇处理工具。其规模:语义网络包含133种语义类型,54中语义关系。超级叙词表包含300多万概念,1300多万概念名称。

SNOMED CT:2002年1月,SNOMED首次发布,它由两大医学术语SNOMED RT与CTV3合并而来,国际版SNOMED CT在每年的1月和7月更新一次。SNOMED CT核心构建是概念、描述(术语)和关系。其规模:目前包含19种语义类型,50多种语义关系,35万概念,120万描述(术语),110万关系。

3. 国内医学知识图谱

CUMLS:由中国医学科学院医学信息研究所基于UMLS开发的中文一体化医学语言系统,包含医学词表、语义网、构建工具与平台。其规模:共收录医学主题词3万余条、入口词3万余条、医学术语10万余条、医学词汇素材30万余条。

医药卫生知识服务系统:由中国医学科学院医学信息研究所承建,通过对资源的深度挖掘和关联分析,建设了知识图谱、知识脉络分析等特色知识服务和应用。其规模:已发布疾病和药品领域知识图谱,其中疾病涵盖心脑血管疾病、呼吸系统疾病、免疫系统疾病、消化系统疾病、肿瘤等。

中医药知识图谱:中国中医科学院中医药信息研究所依托中医药学语言系统(TCMLS)构建了中医药知识图谱。其类型包括:基于中医药学语言系统的知识图谱、中医美容知识图谱、中医养生知识图谱、中国临床知识图谱。

OpenKG:由中国中文信息学会倡导的中文领域开放知识图谱社区项目,主要工作内容包括:OpenKG.CN(开放图谱资源库)、cnSchema(中文开放图谱Schema)和Openbae(开放知识图谱众包平台)。

02

医学知识图谱的领域特征和应用需求

1. 医学知识的特点

医学术语多样性:不同知识源对同一个概念采用了不同术语进行表达。比如:糖尿病又可称为消渴症、消渴、DM等。

精度要求高:医学知识专业性强,医学应用场景容错率低,因此医学知识图谱的精确度要求高。

复杂度高:医学是经验总结的科学,医学概念的内涵往往比较丰富,且有些医学知识复杂很难用简单三元组表达。

2. 医学知识图谱应用场景

医学知识图谱的不同应用场景需求侧重点也有所不同,需要最大化的满足才能提高图谱的适用性。如下所示:

0dae17108e534b843776fae47843470f.png

3. 定制化解决方案

为满足行业深度应用需求,医学知识图谱构建时需引入更多定制化解决方案,如下所示:

c774dd0ce129fbe7bba642f9011a8f77.png

03

数研院医学知识图谱构建

1. 模型建立

医学领域的知识图谱由于其知识专业性强,行业通常采用自上而下的方式,先构建Schema,再抽取知识。

数研院医学知识图谱Schema主要参考了UMLS语义网络、Schema.org、cnSchema等。相关数据涉及四大领域:疾病、药品、手术操作、检验检查。当然我们在知识图谱的构建过程中,会根据抽取和应用的实际情况,不断完善和优化Schema。数研院医学知识图谱于2019年8月首次发布Schema,目前包含72种语义类型、493种语义关系。Schema查询和下载地址为:http://schema.omaha.org.cn/class/Thing#。

Schema分别用于指导“七巧板”医学本体术语集和“汇知”医学知识图谱的构建,完善医学知识表达的体系。我们之所以在一个模型指导下构建两个知识库,是为了解决不同的问题。“七巧板”采用本体解决与逻辑定义(即内涵定义)相关的关系,以及层次关系。“汇知”采用语义网络解决可能性、经验性的关系,并且无层次关系。具体请看下图:

5f26d70275600ff12874166780ec9918.png

2. “七巧板”本体术语集构建

本体术语集的构建整体有6个步骤,依次如下所示:

Step1:确定领域范畴。当前我们以满足临床诊疗需求为切入点,开始尝试构建医学知识图谱。主要涉及范围:疾病、症状、体征,手术操作、检验检查,药品,人体形态结构,基因,医疗器械。

Step2:选取合适的知识源。充分收录行业现行标准、教科书、指南等权威知识源,并同时补充临床病历、互联网诊疗中的术语等。

Step3:梳理重要术语。梳理领域中的重要术语,并由领域专家进行语义层面的实体归一,完成概念化。相关流程如下所示:

82e5521e769ec939e6992008213724ae.png

Step4:建立关系。“七巧板”医学本体术语集的核心构建包括:概念、术语、关系及映射。如下图所示:

45e3d70b080d37fa80aedabfd710e0db.png

充分保留知识源中的已有层级关系,通过机器推理、人工添加的方式进行优化。挖掘知识源中的属性关系,并通过机器推荐、人工添加进行补充。制定明确的映射规则,采用机器推荐、专家审核的方式建立映射。

Step5:存储和浏览。采用关系型数据库,分为概念表、术语表、关系表、映射表进行存储,且保留历史痕迹。术语浏览器实现术语集构建的快速查找,并可按需实现子集定制。如查看关系操作如下所示:

c586faacb3b0b5615982bacb7dbf4f52.png

Step6:平台及工具支撑。自研的知识库维护平台(CoWork),内嵌术语集研制规则,支持多人共同协作。CoWork中“七巧板”的功能如下所示:

7e38e84451f8c6fcb472d819b7449c3c.png

CoWork中术语集编辑器可实现概念层面的编辑功能需求,并支持多人同时在线协作,协作方式为不创建分支,采用编辑锁。术语映射工具利用算法推荐,调高映射效率。目前“七巧板”术语集收录97万概念、123万术语和292万关系,包含疾病、操作、药品等语义类型。我们在持续进行更新维护,按季度发布,每季度第一个月20号发布新版本。

3. “汇知”图谱构建

“汇知”知识图谱的构建有五个步骤,分别如下:

Step1:选取合适的知识源。选取临床指南、临床路径、医学书籍文献等权威知识源,并同时补充医学百科类知识。简言之,即非结构化知识源+半结构化知识源+结构化知识源。

Step2:知识抽取。具体内容包括:实体识别和关系抽取。

实体识别通过基于规则的命名实体识别+专家审核提高标注效率,产生的标注数据用于训练深度学习模型。具体流程如下所示:

0dcb405b60e1116e1eea2a8a9b13bcd3.png

关系抽取基于实体识别的结果,专家标注关系,产生的标注数据用于句法规则总结和半监督学习。具体流程如下所示:

e0acee84aedfd3ef166835e535072ff0.png

Step3:知识融合。最大化地将“汇知”图谱与“七巧板”术语集融合,可为图谱的深度应用打下基础。其过程大致包括实体归一、实体对齐、关系融合等阶段。具体操作如下所示:

3884a495e2d61b06068189d302805349.png

Step4:知识存储和检索。除传统的三元组外,加入“属性组”和“来源”字段,使知识表达更加准确,同时确保知识的可溯源性。保留三元组的来源,满足三元组在不同场景应用的需求。还可通过可视化搜索,快速直观地查看图谱数据,如下图所示:

ced12dda6e9942dd07df6ee932250f18.png

Step5:平台及工具支撑。自研知识库维护平台(CoWork),内嵌知识图谱集研制规则,支持多人共同协作。CoWork中“汇知”的功能描述如下:

c88f395d8b97d060d3dd3d5d526705d6.png

用户可创建多种自定义标注方案,批量上传和分配任务,在基于brat的文本标注工具上,各地志愿者可合作共建知识图谱。“汇知”图谱目前已发布7个领域,共计约11万实体,82万三元组,每个季度第二个月20号发布新版本。前述7个领域如下所示:

f46b508773bfb2e4e8e676c9af149cf3.png

最后,数研院发起的知识图谱协作项目已持续开展5年,已有百名个人志愿者、多家优秀企业参与。贡献榜如下所示:

7c54f46ff751af902e75bec3372d2768.png

04

医学知识图谱应用案例

1. 智能预警

知识图谱作为底层支撑,辅以更多规则,实现更全面的临床诊疗推理。如下低钾案例所示:

8eeca04d9c2a6fbf2709c9cf4dd07708.png

此外,还可基于知识图谱进行推理,实现实验室危急结果的预警和处方异常预警。如下胸痛案例所示:

5df7754318dcfe353a0a345dd1da9a1f.png

2. 指南推荐

基于医学本体层级关系推理后进行推荐,使推荐结果更丰富。如下科塔尔综合征案例所示:

3cea778239d8c32624065528f24195bd.png

另外,还可根据患者信息,推荐相似病历、临床路径、指南等,辅助医生制定治疗计划、规范治疗流程。如下案例所示:

728f8251c386c40aa6e9dc802cbdf55e.png

3. 数据直报

将医学知识图谱中的部分内容作为信息模型中的值集,实现医疗数据与医学知识之间的绑定。术语绑定指:将医学术语集中的概念分配临床信息模型中的具体数据单元,从而实现医学术语和临床信息模型的联系和赋予某种程度上的语义。读者可参考下图理解:

1c177f1c7be4c5b0b312e54342cdec0d.png

也可在信息系统中提前设定相应规则,基于“法定传染病”子集,进行传染病直报判断与提示。如下图所示:

6c92034328183c48a00e5ba15b74248a.png

除此以外,其他应用还包括:智能编码、科研分析等。如果读者感兴趣可关注我们的官网动态~


分享嘉宾:

070860632444087c03056137ad55da55.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

0882938fbc5df6b0a68a5145ad69fc02.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

朴素贝叶斯法(Naive Bayes,NB)

文章目录1. 朴素贝叶斯法的学习与分类1.1 基本方法2. 参数估计2.1 极大似然估计2.2 学习与分类算法2.2.1 例题2.2.2 例题代码2.3 贝叶斯估计(平滑)2.3.1 例题2.3.2 例题代码3. 自编程实现NB4. sklearn.naive_bayes1. 朴素贝叶斯法的学习与分类 1.1 基本…

《Easy RL:强化学习教程》出版了!文末送书

作为人工智能里最受关注的领域之一,强化学习的热度一直居高不下,但它的学习难度也同样不低。在学习强化学习的过程中,遇到了有无数资料却难以入门的问题,于是发起了Datawhale强化学习项目,希望自学的同时帮助更多学习者…

Spring Cloud构建微服务架构:服务消费(基础)【Dalston版】

通过上一篇《Spring Cloud构建微服务架构:服务注册与发现》,我们已经成功地将服务提供者:eureka-client或consul-client注册到了Eureka服务注册中心或Consul服务端上了,同时我们也通过DiscoveryClient接口的getServices获取了当前…

论文浅尝 | Temporal Knowledge Graph Completion Using Box Embeddings

笔记整理:杨露露,天津大学硕士论文链接:https://www.aaai.org/AAAI22Papers/AAAI-6210.MessnerJ.pdf动机时态知识图谱补全(TKGC)中的主要挑战是额外学习时间戳嵌入,以便嵌入模型根据关系、实体和时间戳嵌入…

别再无脑wwm了,在下游任务中不一定有效

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

逻辑斯谛回归模型( Logistic Regression,LR) 最大熵模型(Max Entropy,ME)

文章目录1. Logistic Regression 模型1.1 logistic 分布1.2 二项逻辑斯谛回归模型1.3 模型参数估计1.4 多项逻辑斯谛回归1.5 Python代码2. Maximum Entropy 模型2.1 最大熵原理2.2 最大熵模型的定义2.3 最大熵模型的学习2.4 例题3. 模型学习的最优化算法4. 鸢尾花LR分类实践1. …

Spring Cloud构建微服务架构:服务注册与发现(Eureka、Consul)【Dalston版】

已经有非常长的时间没有更新《Spring Cloud构建微服务架构》系列文章了,自从开始写Spring Cloud的专题内容开始就获得了不少的阅读量和认可,当然也有一些批评,其中也不乏一些很中肯的意见和深度的问题,对我来说也是进一步提高的契…

虚拟专辑丨知识图谱

虚 拟 专 辑 “武大学术期刊”的“虚拟专辑” 旨在将已发表在武汉大学科技期刊中心旗下期刊的论文以时下热点领域按主题重新组合,集中推送,以方便不同专业领域的读者集中查阅、追踪最新研究成果。此次推送的“知识图谱”虚拟专辑,为近几年发…

prompt你到底行不行?

文 | 马杀鸡三明治 源 | 知乎 很久之前老板下任务要试试prompt这个大风,但是玩完后发现太菜了所以连文章都没写,刚好今天工作比较闲就来写写了。 先上结论,连续prompt为运用大模型提供了一种思路,其实这种思路早就见过不少了。。。…

LeetCode 1323. 6 和 9 组成的最大数字

1. 题目 给你一个仅由数字 6 和 9 组成的正整数 num。 你最多只能翻转一位数字,将 6 变成 9,或者把 9 变成 6 。 请返回你可以得到的最大数字。 示例 1: 输入:num 9669 输出:9969 解释: 改变第一位数字…

Spring Cloud实战小贴士:Zuul统一异常处理(二)

在前几天发布的《Spring Cloud实战小贴士:Zuul统一异常处理(一)》一文中,我们详细说明了当Zuul的过滤器中抛出异常时会发生客户端没有返回任何内容的问题以及针对这个问题的两种解决方案:一种是通过在各个阶段的过滤器…

论文浅尝 | Explainable Link Prediction in Knowledge Hypergraphs

笔记整理:陈子睿,天津大学硕士论文链接:https://dl.acm.org/doi/10.1145/3511808.3557316动机知识超图链接预测已被认为是各种知识使能下游应用的关键问题。然而,大多数现有方法主要以黑盒方式执行链接预测,它们学习实…

吴恩达入驻知乎,涨粉秒过万!知乎首答:如何系统学习机器学习

文 | 卖萌酱大家好,我是卖萌酱。昨天在知乎timeline上刷到一个问题:虽然卖萌酱已经不需要系统学习机器学习了,但无意间发现最高赞的id竟然叫“吴恩达”??好家伙,看了看回答日期,是4月8号。戳进去…

学术会议|第六届知识图谱论坛CNCC-知识图谱赋能大数据大算力

CNCC2022将于12月8日至10日在贵州省贵阳市国际生态会议中心举办,今年CNCC技术论坛数量达到122个,内容涵盖了“计算行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月9日举行的【第六届知识图谱论坛-知识图谱赋能大数据大算力】。报…

LeetCode 第 18 场双周赛(188/587,前32%)

文章目录1. 比赛结果2. 题目LeetCode 1331. 数组序号转换 easyLeetCode 1328. 破坏回文串 mediumLeetCode 1329. 将矩阵按对角线排序 mediumLeetCode 1330. 翻转子数组得到最大的数组值 hard1. 比赛结果 做出来了1, 2, 3题,第4题提交超时 2. 题目 LeetCode 1331.…

Spring Cloud实战小贴士:Zuul统一异常处理(一)

在上一篇《Spring Cloud源码分析(四)Zuul:核心过滤器》一文中,我们详细介绍了Spring Cloud Zuul中自己实现的一些核心过滤器,以及这些过滤器在请求生命周期中的不同作用。我们会发现在这些核心过滤器中并没有实现error…

ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

技术动态 | 面向可解释性的知识图谱推理研究

导读:本次演讲的主题是面向可解释性的知识图谱推理研究,报告分为以下 5 个部分:研究背景前沿进展研究动机近期研究研究展望分享嘉宾|万国佳 武汉大学 计算机学院 博士后编辑整理|xiaomei出品平台|DataFunTa…

LeetCode 1332. 删除回文子序列

1. 题目 给你一个字符串 s,它仅由字母 ‘a’ 和 ‘b’ 组成。每一次删除操作都可以从 s 中删除一个回文 子序列。 返回删除给定字符串中所有字符(字符串为空)的最小删除次数。 「子序列」定义:如果一个字符串可以通过删除原字符…

Spring Cloud源码分析(四)Zuul:核心过滤器

通过之前发布的《Spring Cloud构建微服务架构(五)服务网关》一文,相信大家对于Spring Cloud Zuul已经有了一个基础的认识。通过前文的介绍,我们对于Zuul的第一印象通常是这样的:它包含了对请求的路由和过滤两个功能&am…