开源开放 | 细粒度可循证医学文档知识融合表示和推理(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/mdo-dataset

开放许可协议:GPL 3.0

贡献者:武汉科技大学(高峰、龚珊珊、顾进广、徐芳芳)


摘要

本开放资源在医学文档知识的基础上,使用知识图谱相关技术,解决了现有医学知识本体模型存在过于关注概念体系构建、深层次医学知识及关联缺失、无法循证和难以跨病种和学科等不足,提出了一种支持全文内容与结构细粒度知识和知识论证与循证关系表示的医药学融合知识表示模型及其推理机制,且构建了一个面向高血压专病的医药知识图谱来验证这一方法。结果表明,该模型能全面、一致的表达医药学文献、文档中的细粒度知识,同时支持医药学知识的可循证查询和推理。

1. 前言:知识图谱与医学知识表示

知识图谱及相关技术的出现为领域知识的结构化提供了全新手段,该技术现已经运用到医疗、教育等领域。如国际疾病分类(International Classification of diseases ,ICD)系统、统一医学语言系统(Unified Medical Language System,UMLS)等,但这些资源主要关注临床术语体系构建,未能对医学文档中除概念树以外的知识内容、知识结构及其内在关联的细粒度医学知识进行表达。

而一些研究者基于常见的医学文档如医学指南文献和药品说明书文档构建医学本体模型时忽略了非重点知识和深层次知识,同时知识也无法循证。所以提出一种新的建模方式对常见的两类医学文档元数据进行本体建模,主要贡献如下:

针对以上不足,使用了一种全新的建模方式,即用细粒度知识表示方式将医学指南和药品说明书中的医药知识全面完整、细粒和可循证表示。同时针对模型内容给出三个方面的推理规则并举例,最后使用IAA标准对模型进行检测,结果表明该模型能融合、一致和可循证地表示医药学知识。

2. 资源构建及概况

2.1 图谱构建

本次构建的细粒度可循证医药知识本体模型包括医学指南知识、药学知识和医学术语这三部分。其中医学指南文献知识表示指南句子类别,指南句子按照语意可分为定义、描述和事件三类,由于定义类句子和事件类句子有较为固定的表述框架,而描述类句子描述话题广泛、表达方式灵活,因此为实现描述类句子词语级语义细粒度知识灵活且简洁的表示,创新性的使用了RDF(RDF Reification)具化方案来对指南文献中的知识进行表达,即使用有描述知识属性将不同的描述类句子与一个三元组(rdf:Statement)集合进行关联,三元组集合中每一个三元组就是具化后的词语级语义细粒度医学知识,而且这一做法也能兼顾指南知识表示的灵活性与规范性。

对各模块本体概念分析后得到的本体概念示例图如下图1-图3所示。

9ff93d06e0c11ec3b7350d3117d89b49.png

图1 医学指南知识主要概念和关联

ba4353dfbe845408ded6719ac7942cfa.png

图2 药学知识主要概念和关联

94eda45af9de2858f193609856f6ae61.png

图3 医学术语关联图例

在构建细粒度医药知识的同时,也可增加医药学知识的循证性。医药知识循证分为信息来源追溯和医学循证两部分,因为医学循证较复杂,所以本文增加了循证评估类和循证体系类来对医学循证进一步说明,下图4为医药知识循证示例。

4f138f84cf4be485f8918a7f0c6911ea.png

图4 医药知识循证示例

2.2 知识推理

构建医药知识时,由于医药知识体系庞大且且知识之间也存在着关联,因此很多知识可由规则推理得来。本节分别介绍词语级语义细粒度推理、结构细粒度推理和可循证知识推理三部分共9条推理规则。

(1)词语级语义细粒度知识推理

词语级语义细粒度知识作为本体模型中最详细的知识点,包含了丰富的医学知识,针对词语级细粒度知识的特点,给出表1所示规则。

表1  词语级细粒度知识推理规则

f37c06e4e351fdea0d2224b2db236d2f.png

(2)结构细粒度知识推理

医学文档中所含有的结构细粒度知识是承接整篇文档和词语级语义细粒度知识的桥梁,关于结构细粒度推理如表2规则所示。

表2  结构细粒度知识推理规则

cb4c86a802162cb52506344eb45c19e9.png

(3)可循证知识推理

医学循证旨在用证据解答临床问题,可以很好的弥补经验医学所带来的问题,是不同于传统医学的新医学思维模式和临床医学研究方法。相关可循证推理规则如表3所示。

表3  可循证知识推理规则

71225dcb7be50ec84228f2f311b84a02.png

需要指出的是,医学知识的规则和推理远不止下表中所述部分,本文只针对MDO所支持的代表性推理规则进行列举以说明其对于医药文献的词语级细粒度语义知识、结构细粒度知识和可循证知识的表达和推理能力,以上各类规则可在医学专家的辅助下进行扩展。

表4展示了图谱中每类三元组的数量。

表4  各类知识统计表

37592051dac3fa1b486cffda768847f9.png

3. 资源用途

对于构建后的资源,我们可以从以下几个方面进行利用:

(1)查询医学相关知识。可在该图谱中查询指南细粒度知识、文献循证知识、药品基本信息知识、药品相互作用知识、药品不良反应知识、药品禁忌知识和药学知识点循证知识等7类知识。

(2)对医学知识进行推理。由推理规则可以推理出额外的医学知识,扩大了知识的延展性,也丰富了图谱知识内容。

(3)用于专业医护人员。现有的医药知识过于分散且复杂,通常情况下很难充分利用起来,对于医学专业人员而言,由于关键医学知识不够直观,且连篇累牍的医学指南在查阅时不便记忆且耗时。那么可以使用该图谱资源进行医学知识的查询。

(4)用于病患及家属查询用药知识。专业医学术语对非医学专业人员在了解疾病时是累赘且无效的,再者查看文字篇幅长、专业化程度高、非结构化的医学文档存在一定的困难,不能够及时有效提取出其中的信息,使用本资源则能快速、方便地得到细粒、简洁且全面知识。

4. 总结

在本开放资源中,我们在构建医学知识模型时增加医学术语模块、RDF具化方案等方法,使用词语级三元组表示医学知识,对医学、药学知识中的专业医学知识进行具体灵活表示,增加了医学循证对指南文献的循证知识进行分析与处理,使医学指南文献和药品说明书文档中的医药知识都能细粒、一致和可循证的表示。同时介绍了词语级语义细粒度、结构细粒度和循证三个方面的推理规则。我们希望此开放资源,可以更好地为知识图谱技术与医学知识的研究提供一定的支持。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

05e9e8e2b1d91971484409e22f0eeec4.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477878.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用!

文 | Rukawa_Y编 | 智商掉了一地,Sheryc_王苏比 SimCLR 更好用的 Self-Supervised Learning,一起来看看吧!Self-Supervised Learning作为深度学习中的独孤九剑,当融汇贯通灵活应用之后,也能打败声名在外的武当太极剑。…

5whys分析法在美团工程师中的实践

前言 网站的质量和稳定性对于用户和公司来说至关重要,但是在网站的快速发展过程中,由于各种原因导致事故不可避免的发生,这些大大小小的事故对公司难免会造成一些负面的影响,为了避免同类事故的再次发生,美团的工程师们…

LeetCode 382. 链表随机节点(概率)

1. 题目 给定一个单链表,随机选择链表的一个节点,并返回相应的节点值。保证每个节点被选的概率一样。 进阶: 如果链表十分大且长度未知,如何解决这个问题?你能否使用常数级空间复杂度实现? 来源:力扣&am…

图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用

转载公众号 | DataFunSummit分享嘉宾:黄柯鑫 斯坦福大学 博士生编辑整理:元玉蒲 西北大学出品平台:DataFunTalk导读:大家好,我叫黄柯鑫。我现在是斯坦福大学的计算机科学博士第一年级,研究方向是机器学习在…

排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?...

文 | 王喆源 | 王喆的机器学习笔记作为互联网的核心应用“搜广推”,三个方向基本都是互联网公司的标配。各头部公司的搜广推系统也都各自发展成了集成了多种模型、算法、策略的庞然大物,想一口气讲清楚三者的区别并不容易。不过万事总有一个头绪&#xf…

Solr Facet技术的应用与研究

问题背景 在《搜索引擎关键字智能提示的一种实现》一文中介绍过,美团的CRM系统负责管理销售人员的门店(POI)和项目(DEAL)信息,提供统一的检索功能,其索引层采用的是SolrCloud。在用户搜索时,如果能直观地给出每个品类的POI数目&am…

LeetCode 129. 求根到叶子节点数字之和(DFS)

1. 题目 给定一个二叉树,它的每个结点都存放一个 0-9 的数字,每条从根到叶子节点的路径都代表一个数字。 例如,从根到叶子节点路径 1->2->3 代表数字 123。 计算从根到叶子节点生成的所有数字之和。 说明: 叶子节点是指没有子节点的…

推荐精排之锋:FM的一小步,泛化的一大步

文 | 水哥源 | 知乎1.如果说LR是复读机,那么FM可以算作是电子词典2.泛化就是我没见过你,我也能懂你,但是泛化有时候和个性化有点矛盾,属于此消彼长的关系3.实践中的泛化往往来源于拆解,没见过组成的产品,但…

图谱实战 | 阿里周晓欢:如何将实体抽取从生成问题变成匹配问题?

转载公众号 | DataFunSummit分享嘉宾:周晓欢 阿里巴巴 算法专家编辑整理:刘香妍 中南财经政法大学出品平台:DataFunSummit导读:实体抽取或者说命名实体识别 ( NER ) 在信息抽取中扮演着重要角色,常见的实体抽取多是对文…

剖析 Promise 之基础篇

随着浏览器端异步操作复杂程度的日益增加,以及以 Evented I/O 为核心思想的 NodeJS 的持续火爆,Promise、Async 等异步操作封装由于解决了异步编程上面临的诸多挑战,得到了越来越广泛的应用。本文旨在剖析 Promise 的内部机制,从实…

LeetCode 318. 最大单词长度乘积(位运算)

1. 题目 给定一个字符串数组 words,找到 length(word[i]) * length(word[j]) 的最大值,并且这两个单词不含有公共字母。你可以认为每个单词只包含小写字母。如果不存在这样的两个单词,返回 0。 示例 1: 输入: ["abcw","baz&…

百度研究院商业智能实验室招聘研究实习生!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1岗位职责:同实验室的数据科学家和工程师一起参与研发前沿的机器学习技术,主要内容为对前沿技术进行调研,复现前沿科研成果在顶级会议和期刊上发表论文支持及落地百度飞…

论文浅尝 | KGNLI: 知识图谱增强的自然语言推理模型

笔记整理 | 韩振峰,天津大学硕士链接:https://aclanthology.org/2020.coling-main.571.pdf动机自然语言推理 (NLI) 是自然语言处理中的一项重要任务,它旨在识别两个句子之间的逻辑关系。现有的大多数方法都是基于训练语料库来获得语义知识从而…

block在美团iOS的实践

说到block,相信大部分iOS开发者都会想到retain cycle或是__block修饰的变量。 但是本文将忽略这些老生常谈的讨论,而是将重点放在美团iOS在实践中对block的应用,希望能对同行有所助益。 本文假设读者对block有一定的了解。 从闭包说起 在Lisp…

写Rap,编菜谱,你画我猜……这些 AI demo 我可以玩一天!

文 | ZenMoore编 | 小轶上次写的那篇 《Prompt 综述15篇最新论文梳理]》 有亿点点肝。这次给大家整点轻松好玩的(顺便给这篇推文打个广告,快去看!)。不知道读者朋友们有没有遇到这样的情况:有新的论文发表了&#xff0…

LeetCode 1254. 统计封闭岛屿的数目(图的BFS DFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 有一个二维矩阵 grid ,每个位置要么是陆地(记号为 0 )要么是水域(记号为 1 )。 我们从一块陆地出发,每次可以往上下左右 4 个方向相邻区域走,能…

技术动态 | 图对比学习的最新进展

转载公众号 | DataFunSummit 分享嘉宾:朱彦樵 中国科学院自动化研究所编辑整理:吴祺尧 加州大学圣地亚哥分校出品平台:DataFunSummit导读:本文跟大家分享下图自监督学习中最近比较热门的研究方向:图对比学习&#xff0…

如何把Android手机变成一个WIFI下载热点? — 报文转发及DNS报文拦截

随着WiFi的普及,移动运营商的热点也越来越多了,如中国移动的CMCC、中国电信的ChinaNet、中国联通的ChinaUnicom等,一般来说,连上此类的热点,打开浏览器上网时都会自动跳转到一个验证页面,最近有个项目也有类…

OpenKG 祝大家新春快乐

OpenKG 祝各位读者新春快乐,虎虎生威!OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。点击阅读原文,进入 OpenKG 网站。…

推荐中使用FNN/PNN/ONN/NFM优化特征交叉

文 | 水哥源 | 知乎sayingDNN时代来临的时候,LR没打过,也很难加入。FM打不过,但他可以加入FM的精髓,最上在于latent embedding,有了它才能把交互拆解到基底上;居中在于element-wise乘,能让两个特…