本文转载自公众号:OMAHA联盟。
2019年8月,OMAHA对HiTA知识图谱服务平台(kg.omaha.org.cn)进行了更新,同步发布了医学知识图谱表达模型(schema)。2019年9月17日,首次发布了由OMAHA研发的知识图谱数据资源。发布内容主要围绕“药品-适应证”展开,包括1.57万实体,9.87万关系,其中约0.5万药品实体来源于“OMAHA七巧板医学术语集”相关药品概念,基本涵盖国内临床常用药品。
同时,为了更好地促进计算机对于知识体系的应用,我们以OMAHA七巧板医学术语集为基础,对药品适应证的内容进行了标准化和概念化,助力系统实现语义层面的互操作。
一、“药品-适应证”关系表达模型
基于中国药典、药品说明书和标签管理规规范、药品说明等资料,总结并构建了药品适应证的关系模型,主要包括三类关系:用药目的、适用人群、适应证,具体关系的解释说明见下表。
表1:“药品-适应证”关系表达模型
关系 | 定义 | 值域 |
用药目的 | 指用药的最终目标,是治疗或缓解症状还是预防相关疾病等。 | 用药目的 |
适用人群 | 指适宜用于具有一些相同特征的人群。 | 人群 |
适应证 | 指药物适用于某种疾病、症状、操作等情况。 | 临床所见 |
操作 | ||
事件 |
完整的OMAHA知识图谱schema详见:
http://kg.omaha.org.cn/portal/index/Schema
以下为“氯达香豆素(药品)”关系的举例:
二、构建方式的说明
(一)数据来源
原始数据来源于各地药品医保目录、药品说明书等开放数据,以及中国药典、药理学等高质量医学资源。
(二)构建规则
1. 通过自然语言处理与文本挖掘技术,采用机器与人工相结合的方式进行构建;
2. 为了药品适应证能够更加精确的表达,将用药目的、适用人群、适应证进行成组表示:
(1)其中各关系数量为:x个用药目的(x≥0)、y类适用人群(y≥0)、z个适应证(z≥1);
(2)每个关系组内用药目的、适用人群、适应证最多只会存在一条,且用药目的、适用人群必须与适应证成组存在,不可单独存在;
(3)若相同适应证存在多个用药目的或多个适用人群,则以多条关系成组存在。
(三)数据标准化与概念化
1. 基于“OMAHA七巧板医学术语集”相关内容,已对知识图谱资源中药品进行了语义消歧和归一,并建了相应的映射关系;
2. 所有适应证属性值的相关概念均通过“OMAHA七巧板医学术语集”进行映射,对“适应证”的文本内容进行充分概念化,而非单纯的适应证文本;
3. 最终所有数据都由专业人员进行了审核,确保内容的正确性。
三、属性值的说明
(一)适应证
药品适应证的取值内容已最大化映射至“OMAHA七巧板医学术语集”中的“临床所见”、 “操作”、 “事件”等领域的概念。
其中,对于目前无法映射到“OMAHA七巧板医学术语集”的实体,我们都与“OMAHA七巧板医学术语集”中的相关概念建立层级关系(is-a)或属性关系,尽可能丰富地表达适应证的语义内涵。
(二)用药目的
OMAHA知识图谱的限定词中“用药目的”类的术语,为可枚举的限定词。部分举例如下:
用药目的
“用药目的”属性的属性值为“用药目的”类, “用药目的”类下面划分“治疗用药”、“辅助治疗用药”、“预防用药”、“诊断用药”、“操作用药”,术语解释如下:
1. 治疗用药:是指一切以解除病痛为核心的用药目的,包括一般意义上的治疗、对症治疗和姑息治疗等;
2. 辅助治疗用药:是指药品在治疗行为过程中起辅助作用,包括消毒用药、康复用药、恶性肿瘤辅助用药等;
3. 预防用药:是指药品用于预防某种疾病的发生,如疫苗接种、健康危险因素预防等;
4. 诊断用药:是指药品用于某种疾病的诊断过程当中,包括直接诊断、辅助诊断等;
5. 操作用药:是指药品用于某项临床操作过程中,如手术用药、检查用药、麻醉用药等。
(三)适用人群
OMAHA知识图谱中 “人群”类的术语,部分举例如下:
适用人群
“适用人群”属性的属性值为“人群”类,主要划分标准为年龄、性别和临床特征等。一些特殊的术语解释和概念定义如下:
1. 新生儿:指出生28天以内的人群;
2. 婴儿:指1岁以内的人群;
3. 幼儿:指1岁至3岁之间的人群;
4. 儿童:指14岁以下的人群;
5. 青少年:指14岁至18岁之间的人群;
6. 青年:指14岁至35岁之间的人群;
7. 育龄女性:指15岁至49岁之间的女性人群;
8. 中老年人:指45岁以上人群;
9. 老年人:指60岁以上人群。
四、数据资源下载的说明
HiTA知识图谱服务平台(hita.omaha.org.cn)向机构用户提供dump数据包下载,包含1.57万实体、9.87万关系,其中0.85万实体与OMAHA七巧板医学术语集建立了直接的映射。具体数据表解释说明如下:
OMAHA知识图谱数据文件为TXT格式,包括实体ID、语义标签、属性名称、属性ID、值、值ID、关系组七个字段,其中每条数据即为一条关系。
实体ID:标识本条关系中的主语,并且为所有实体的唯一ID;
语义标签:标识本条关系中实体的语义类型,具体对应OMAHA知识图谱Schema中语义类型的名称;
属性名称与属性ID:标识本条关系中的属性,具体分别对应OMAHA知识图谱Schema中属性关系的名称和ID;
值与值ID:标识本条关系中的属性值。若本条关系中的属性为数据属性时,值为具体的数据内容,值ID为空;若本条关系中的属性为对象属性时,值为空,值ID为所对应的实体ID;
关系组:标识本条关系所在的关系组,是一个非负整数。当group为0时,则代表本条关系与其他关系均不成组,当group不为0时,则表示本条关系与其他相同group的关系成组存在。
*特殊属性解释:
其中OMAHA概念ID(R013)的属性,指该实体所对应的“OMAHA七巧板医学术语集”中的概念ID标识符。本条属性的建立是为了方便机构用户能够更好地将“OMAHA知识图谱”与“OMAHA七巧板医学术语集”结合起来应用。若实体无该属性,则代表该实体暂时无法映射到“OMAHA七巧板医学术语集”。
数据文件示例如下:
本次发布数据的完整介绍详见:
http://wiki.omaha.org.cn/pages/viewpage.action?pageId=31424966
知识图谱资源获取方式:
第一步:登录HiTA服务平台( hita.omaha.org.cn );
第二步:进入“知识图谱”—“下载数据资源”板块,点击相应数据包下载即可。
五、联系我们
如您在使用资源过程中有任何问题,可随时通过邮箱或者电话的方式联系我们,同时我们也十分希望得到您对于我们提供的知识图谱服务的反馈和建议。
邮箱:hita@omaha.org.cn
电话:0571-88983625(联系知识图谱服务部,工作时间:9:30-17:30)
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。