开源开放 | OpenKG 更新发布新冠概念、防控和流行病等多个知识图谱

近日,OpenKG 继续更新发布多个新冠知识图谱,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱 V1.1

OpenKG 发布的所有新冠知识图谱都基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议,供大家免费下载使用

欢迎大家访问新冠图谱专题链接,获取更多新冠知识图谱:

http://openkg.cn/group/coronavirus 

1.新冠概念图谱 V1.0

图谱链接:

http://www.openkg.cn/dataset/covid-19-concept

 

1.1 简介以及潜在应用

    新冠概念图谱从网络文本中采集了与新冠疾病相关的实体和关系(包括疾病、人物、症状等),进一步融合了从百度百科,维基百科等知识库的infobox中提取的实体关系。更为特别的是,本概念图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的is-a层次结构(schema)是自动构建而成的,包含了细粒度的上下位层次结构。该概念图谱目前已应用于深睿医疗开发的新冠肺炎小睿医生助手中用于计算问句之间的相似度以及辅助解答用户提问。

    借助于细粒度的上位概念层次结构和丰富的实体间关系,本概念图谱能够为针对新冠肺炎的智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。以问句相似度计算问例,本概念图谱可以对问句中的实体利用上位概念词进行扩展,通过丰富额外的特征从而更加准确的衡量问句间相似度而将问题归类。

                                                               

1.2 数据schema

    新冠概念图谱由网络文本中挖掘了大量细粒度的上位概念词,并自动获取概念之间的层次结构。即,本概念图谱的层次结构(schema)是自动构建形成的,可根据实体的含义形成细粒度的层次结构。

    下面即展示了针对不同实体所形成的概念层次结构,其中红色结点为实体,深色的为上位概念词。由图中示例可见,根据实体的含义可以自适应的形成不同结构、不同层次的概念层次结构。例:

    

1.3 数据来源与规模

    新冠概念图谱的数据有两个来源:

  1)从网络文本中采集了与新冠疾病相关的实体、关系、细粒度的上位概念词,自动构建形成上下位概念层次结构。

    2)融合了从百度百科,维基百科等知识库的infobox中提取的实体关系。

 

    新冠概念图谱中的上位概念词从多来源的数据(包括搜索引擎、百科、构词结构)中获得,同时通过排序机制过滤掉可信度较低的上位概念词。实体和上位概念词以及上位概念词之间的层次结构(is-a关系)则通过度量词语之间的语义宽泛性自动获得。横向关系三元组(实体与实体之间的关系)中80%的数据来源于百度百科、维基百科的整合,余下的20%是从网络文本中自动挖掘而得,再辅以句法、语义等规则形成的置信度进行过滤而得到。以上做法保证了新冠概念图谱中包含的上位概念词、概念层次结构和关系三元组的准确性。

 

新冠概念图谱规模:

  • 实体:4784

  • 上位概念词:1487

  • 上下位(Is-a)关系元组:19391

  • 横向实体间关系三元组:35172

1.4 可视化样例

    新冠概念图谱除了开放数据之外,还提供了可视化的查询网站,通过输入的关键词能够在该图谱中查询实体。为方便展示实体的上下位概念层次结构和实体之间的横向关系,我们提供了两种展示样式。如下图所示,针对同一实体的两种展示样式分别是实体的上下位概念层次关系和实体间的横向关系。图中红色的点代表查询实体,查询实体周围浅绿色的点代表该结点对应的实体也被概念图谱所包含,可点击展示。

         

     

 

 

2.新冠防控图谱 V1.0

图谱链接:

http://www.openkg.cn/dataset/covid-19-prevention

2.1 简介以及潜在应用

根据目前互联网公开的针对人员、场所、交通工具防控指南或手册,形成相应的知识图谱,包含防护概念的分类体系、注意事项,相关避免去的场所和不要做的事情。其中物资包含口罩等涉及一些特定商品的图谱并与防控规则关联。

潜在应用包括提供基本防控知识问题,集成于流程化信息处理平台,用于各场所检查防控措施是否正确等。例如以下示例:

 

示例:

【输入】:XX广场(Y2店),已控制公众前往商场,上班工作人员发热,已加强开窗通风换气,洗手间内洗手液配备足够,供水设施正常工作,卫生设施是否进行了消毒,且卫生设施消毒及时。

【输出】

XX广场(Y2店)是人流密集、流动性大的公共场所

防护情况:未正确防护

错误点:确保可疑症状工作人员不带病上班

遗漏点:

  • 公共用品和接触部位进行了定期清洗和消毒

  • 空调系统或排气扇正常运转

  • 空调滤网定期清洗

  • 及时清理垃圾

  • 卫生设施必要时使用了空气消毒喷雾消毒

 

2.2 数据schema

       

2.3 数据来源与规模

  • 协和新型冠状病毒肺炎防护手册,http://pumcp.com/portal/sites/xiehe/pages/books/7/index.html

  • 《张文宏教授支招防控新型冠状病毒》(数字版),上海科学技术出版社

  • 不同人群、不同场所和不同交通工具健康防护指导手册,中央赴湖北省指导组防控组编制,http://wjw.hubei.gov.cn/bmdt/ztzl/fkxxgzbdgrfyyq/jkkp/202002/t20200215_2028497.shtml

数据规模

  • 概念:95个

  • 实例:306个

  • 数值属性:5个

  • 对象属性:14个

2.4 可视化样例

 

3.新冠流行病学图谱 V1.1

图谱链接:

http://openkg.cn/dataset/covid-19-epidemiology

3.1 更新记录

  • 删除了原有JSON-LD数据中的示例性病例数据共5条;

  • 添加了深圳市卫健委发布的316例新冠肺炎确诊病例的流行病学调查数据。

3.2 简介以及潜在应用

    新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例(待更新)。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,未包含“流行病学研究方法”、“预防与控制策略”、“临床治疗与预后”等内容,需要在后续版本中与其他新冠肺炎知识图谱集成或连接。新冠肺炎资源实例包含了发生在2019年-2020年2月期间,COVID-19疫情中确诊患者的流行病学调查数据,这些数据来自中各省市卫健委公布的个案流调信息。

新冠流行病学图谱可以助力对流行病调查、溯源、密切接触者追踪,为医护人员和疾病防控人员提供技术支持,加速流行病调查研究。

 

             

3.3 数据schema

流行病学知识图谱的schema定义了流行病学的基本概念,例如:流行病、病原体、宿主、疫情、流行病学调查、调查方法、调查人群、被调查个体、调查报告。其中主要对病原体、流行病学调查和调查报告进行了详细定义。详见下图。

             

3.4 数据来源与规模

数据来源

  • 王建华,刘民,《流行病学-第7版》人民卫生出版社

  • 陈清,徐德忠,《流行病学复习考试指导》人民军医出版社

  • 各地卫健委公开信息

数据规模

  • 概念:55 个

  • 实例:2163 个

  • 数值属性:26个

  • 对象属性:21个

  • 三元组数量:8336 个

3.5 可视化的图谱样例

             

点击阅读原文,下载新冠知识图谱

 

主要贡献者

新冠概念图谱

哈尔滨工业大学:张裕舟,佘琪星,王必聪,刘铭,秦兵,刘挺  

 

新冠防控图谱

武汉科技大学:胡丹阳,王萌,李秋,刘宇,顾进广

东南大学:张振志,胡润秋,徐毅男,张涛,史淼,郭文孜,黄红蓝

 

新冠流行病学图谱

IBM中国研究院:李静,王健,蒋建民,王轲,王彦菲,梅婧


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479214.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

客户端单周发版下的多分支自动化管理与实践

背景 目前,互联网产品呈现出高频优化迭代的趋势,需求方希望尽早地看到结果,并给予及时反馈,所以技术团队需要用“小步快跑”的姿势来做产品,尽早地交付新版本。基于以上背景,美团客户端研发平台适时地推行了…

无意中发现了一位清华大佬的代码模版

对于刷题相关的文章,在之前我也推荐过不少,今天在给大家推荐一份算法刷题笔记,这份笔记与以往的刷题有所区别,作者把 Leetcode 一千多道题都进行了系统的整理,并且对于每一道题的代码,都要求 beat 100%。作…

LeetCode 998. 最大二叉树 II

1. 题目 向最大二叉树插入一个值; 如果该值大于根节点,则子树必须在该值的左边; 如果该值小于根节点,则该值必须在根节点的右子树 2. 解题 class Solution { public:TreeNode* insertIntoMaxTree(TreeNode* root, int val) {if(…

科大讯飞2020完整事件抽取系统(bert+数据集)

科大讯飞2020完整事件抽取系统(bert数据集) 事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换&#xff0…

应用实践 | 网络智能运维下的知识图谱

本文转载自公众号:网络人工智能园地。让AI更智能,谷歌要用知识图谱让AI像人一样理解世界。让AI更智能,我们要用知识图谱让AI像网络专家一样了解网络。知识图谱引领人工智能从感知阶段演进到认知阶段,成为当前的热点技术之一&#…

还在买白酒?算法工程师们,量化投资了解一下

文 | 阿财知乎 本文已获作者授权,禁止二次转载赚取你认知中的Alpha坚持用量化的观点去看待宇宙的终极问题:买不买,卖不卖。很多人的在互联网这一片方寸之地,表现出来的行为是矛盾的。举个例子,相信技术指标在交易实践毫…

LeetCode 969. 煎饼排序

1. 题目 给定数组 A&#xff0c;我们可以对其进行煎饼翻转&#xff1a;我们选择一些正整数 k < A.length&#xff0c;然后反转 A 的前 k 个元素的顺序。我们要执行零次或多次煎饼翻转&#xff08;按顺序一次接一次地进行&#xff09;以完成对数组 A 的排序。 返回能使 A 排…

论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

论文作者: 邓淑敏&#xff0c;浙江大学在读博士&#xff0c;研究方向为低资源条件下知识图谱自动化构建关键技术研究。Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, Wei Zhang, Huajun Chen. Relation Adversarial Network for Low Resource Knowledge Graph Comple…

Spring Boot引起的“堆外内存泄漏”排查及经验总结

背景 为了更好地实现对项目的管理&#xff0c;我们将组内一个项目迁移到MDP框架&#xff08;基于Spring Boot&#xff09;&#xff0c;随后我们就发现系统会频繁报出Swap区域使用量过高的异常。笔者被叫去帮忙查看原因&#xff0c;发现配置了4G堆内内存&#xff0c;但是实际使用…

Facebook刷新开放域问答SOTA:模型训模型!Reader当Teacher!

文 | Sherry 不是小哀编 | 小轶一部问答系统发展史就是一部人工智能发展史。早在1950年的图灵测试就提出&#xff1a;如果人类无法通过问答将机器和人区分开&#xff0c;那么这个机器就可以被认为具有智能。问答系统和人工智能有着密不可分的关系。从基于规则和结构化数据的自动…

LeetCode 1038. 从二叉搜索树到更大和树(逆中序-右根左-降序)

1. 题目 2. 解题 二叉搜索树 逆中序遍历&#xff08;右根左&#xff09;是降序的 class Solution { public:TreeNode* bstToGst(TreeNode* root) {stack<TreeNode*> stk;int sum 0;TreeNode *rootcopy root;while(root || !stk.empty()) {while(root){stk.push(root);…

Inode 导致 电脑的网络适配器和访问点出现问题

1 电脑好好的&#xff0c;由于项目原因需要安装inode去访问外网的数据集。安装好inode没有什么问题&#xff0c;网络依然可以用。然后不小心重启了一下电脑&#xff0c;发现电脑所有的网络均不正常。网络诊断是电脑的适配器和访问点出现故障。根据网络上的解决方案&#xff0c;…

应用实践 | 南方科技大学研发基于新型冠状病毒知识图谱模式挖掘系统

本文转载自公众号&#xff1a;南方科技大学计算机科学与工程系。随着新型冠状病毒疫情的不断发展&#xff0c;有关疫情的各类信息也在不断更新&#xff0c;如何利用知识图谱从大量新型冠状病毒肺炎信息中高效挖掘相关频繁模式&#xff08;如病毒的宿主、传播途径&#xff09;成…

java.lang.NoClassDefFoundError: * : Landroid/support/v7/gridlayout/R$styleable 异常终极解决办法

该问题解决办法适用于任何类似问题。 问题的标准异常描述为&#xff1a;java.lang.NoClassDefFoundError: Failed resolution of: Landroid/support/v7/gridlayout/R$styleable 今天由于项目需要&#xff0c;想在项目中使用GridLayout&#xff0c;无奈&#xff0c;标准库中的…

训练一个130亿参数的模型要用几个GPU?微软:一个就够

文&#xff5c;蛋酱、张倩源&#xff5c;机器之心现在的模型动辄数百、数千亿参数&#xff0c;普通人训不动怎么办&#xff1f;前不久&#xff0c;谷歌发布了参数量为 1.6 万亿的语言模型Swith Transformer&#xff0c;将 GPT-3 创下的参数量记录&#xff08;1750 亿&#xff0…

技术年货:美团技术沙龙合辑大放送——85个演讲,70+小时视频

你好&#xff0c;2019 再见&#xff0c;2018 又到了一年辞旧迎新的时候&#xff0c;大家应该也和美美一样&#xff0c;在忙着总结回顾和展望规划吧。 按老惯例&#xff0c;我们该献上技术年货了。今年首先出场的&#xff0c;是我们的技术沙龙大套餐&#xff01; 美团技术沙龙是…

LeetCode 442. 数组中重复的数据

1. 题目 给定一个整数数组 a&#xff0c;其中1 ≤ a[i] ≤ n &#xff08;n为数组长度&#xff09;, 其中有些元素出现两次而其他元素出现一次。 找到所有出现两次的元素。 你可以不用到任何额外空间并在O(n)时间复杂度内解决这个问题吗&#xff1f; 示例&#xff1a;输入:…

如何恢复在 PyCharm 中误删的整个项目文件

如何恢复在 PyCharm 中误删的整个项目文件 方案1: 在误删项目的原始文件地址下新建相同文件名的空文件夹,即新文件夹与被误删项目的路径相同. 在 PyCharm 中打开该新文件夹,右键文件夹,点击 Local History 下的 Show History. 页面左侧为删除的文件信息(时间等),点击文件名右…

征稿 | ​2020年全国知识图谱与语义计算大会

China Conference on Knowledge Graph and Semantic Computing(CCKS 2020)www.sigkg.cn/ccks2020征稿启事&#xff08;第二轮&#xff09;2020年8月15日-18日&#xff0c;南昌征稿截止: 2020年5月21日第十四届全国知识图谱与语义计算大会&#xff08;CCKS: China Conference o…

新手福利:百度官方中文教程,过年也要深度学习!

很多小伙伴在后台给我留言&#xff0c;零基础如何入门深度学习&#xff1f;想要做算法工程师&#xff0c;自学了python基础&#xff0c;现在还来得及吗&#xff1f;这个问题很大。很难说一篇文章几句话就能解决这个问题。今天我给大家说一下自己的一些个人经验&#xff0c;比较…