开源开放 | 多模态地球科学知识图谱GAKG

OpenKG地址:http://openkg.cn/dataset/gakg

网站地址:https://gakg.acemap.info/

论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:王新兵,张伟楠,邓程等上海交通大学Acemap团队成员,深时数字地球大科学计划团队


1、背景

地球是一切生命的摇篮,也是人类赖以生存的家园,研究地球的自然科学称为地学,包括地理学、物理学、化学等学科。纵观历史,古生物学家研究从46亿年前至今地球上各物种的特征和环境演变,探索环境变化对生物多样性的影响地理学家研究地形、土地形态和气候,发现人类生活引起的全球变暖与地轴飘移有一定关联。地质学家探索海洋,为人类带来更重要的资源,如稀土矿物。由此可见地学在学术领域中扮演的角色不仅让我们了解人类与地球的关系,也帮助我们了解当前 的变化。

目前,地学的数据库资源集成度较低,学术知识图谱比较稀少,且往往是概念级的,只是简单地让每个实体代表一个地理对象。与其他学科不同,地学数据包含大量丰富的地理位置、地质时间尺度和反映地学多模态的地图。因此这种文献计量学信息无法综合反映地学学术数据,文章中离散的图像、文本和时间尺度也没有得到充分耦合。这一现状可能阻碍地学的研究。为解决上述问题,上海交通大学Acemap研究团队背靠DDE项目设计了一个新颖的地球科学多模态学术知识图谱GAKG,希望能为地学领域、数据挖掘和信息检索领域的研究者们提供数据和服务。

2、数据集简介

如前所述,GAKG 是⼀个⼤型多模态学术知识图谱,其中所有的数据均来⾃ AceMap (https://www.acemap.info/ )。GAKG的模式图由11个概念和19个连接概念的关系组成。每一个实体都有一个概念与之对应,并且具有一定的属性。具体概念相关信息如表 1 所示。

5ae2dbf3ecc8ad5c9e719a0fac6a9d6c.png

表 1 概念及其含义、属性和数量

关系也可以被视为概念的对象属性。具体概念相关信息如表 2 所示。

c8af948d4583366ec553a40c65c4dce9.png

表 2 关系及其解释和数量

3、构建过程

3.1 知识实体抽取

GAKG提出了Human-In-the-Loop方法来进行知识实体抽取。我们首先提出5个问题,分别对应5种知识与论文之间的关系,随后利用基于ERNIE的模型框架训练机器阅读理解模型,用于对所有论文找出每篇论文对这5个问题的答案,最后将其与知识实体联系起来。具体信息见表3。

382c6f0182c7deb25fdf1063cadb59f0.png

表 3 问题及其对应的关系和数量

3.2 地球科学知识本体

在资深地球科学家的帮助下,我们结合维基百科的分类和AceMap界定的学术领域之间的关系,构建了地球科学知识的层次结构。GAKG认为学术知识图谱的本体是学术的知识体系,实例为一篇篇论文。

3.3 地理位置信息提取

地理位置的数据主要来自于配图和论文中提及的文本。对于地理插图,我们首先通过pdffigures2进行图片抽取,随后使用PaddleOCR进行文本识别,再通过geocoder生成坐标并从插图中的数字提取经纬度范围。OCR识别的一个例子如图1所示。对于地理/社会/政治实体,我们构建了基于BERT的命名实体识别模型,并通过geocoder得到坐标。

8ed9aa53364faf72bc11de8c5d2d19fe.png

图 1 插图坐标提取的一个例子。(a)为OCR结果,(b)高亮了识别错误

3.4 地理年代信息提取

我们开发了基于规则的增强信息提取方法,提取了论文标题、摘要和导论中提到的地理年代信息的实体。根据地理时代词在论文中的位置以及前后出现的词,计算置信度得分并选取达到一定阈值的。论文的地址时间尺度分布如图2所示。

dccc82aac0a54509a277ccc27861fe62.png

图 2 随地质时代的论文分布

4、地学应用

地球科学的探索,是将各学科知识落实在地球未知的区域、未知的时代和未知的领域中。我们面向对地球科学知识有一定研究和专业背景人员,基于全域地学知识图谱,提供学科或主题科技资源的语义信息检索和知识发现服务,支撑大数据-大知识双轮驱动的地学创新研究。

一个创新的研究,要对学科领域的论文进行充分的调研,地学也是如此。我们对此给出多模态的地学语义搜索系统。区别于谷歌学术等学术搜索引擎,GAKG-Search基于GAKG的地学文章知识点和提及的关键要素进行语义层面的相关性匹配,并返回论文及论文涉及的图片、表格、时代以及地理位置信息,弥补了关键词匹配式搜索忽略了语义信息的缺点。

f629c187fb9d5015353a208aac3a2369.png

一个学术的探索,要对领域的知识体系有全面的认识,并且也要清楚了解知识体系中的各类知识点涉及的论文、年代和地理位置信息。GAKG-Navi提供了由地学专家人工挑选的地学全知识体系的可视化,同时每个知识点关联了相关的论文、图片、表格、百科知识和数据集,并对相关的文章给出机器生成的总结摘要。用户可以在此独特的系统中进行知识点的遨游和穿梭。

72424010e7c6dfb26785ab8a825bdee9.png

ba2752d905abe2dcf6085091bd19a44d.png

在进行地学知识的探索过程中,要对文献在世界上的分布有充分的认识,GAKG-PaperOnTheMap提供了基于Paper关联POI的数据,每篇文章谈论涉及若干地点,本系统通过GPE抽取和经纬度坐标抽取将论文与地理信息系统关联起来,联同论文谈论的年代信息,给学者以时空维度的论文检索体验,方便学者对地学知识进行探索。

f938e890a909780e273f0c58d8f0d090.png

e2ab65f81c78ed5a8a970fe64ada328e.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

3c079e4f95f8445197673cadeac80976.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 468. 验证IP地址

1. 题目 编写一个函数来验证输入的字符串是否是有效的 IPv4 或 IPv6 地址。 IPv4 地址由十进制数和点来表示,每个地址包含4个十进制数,其范围为 0 - 255, 用(".")分割。比如,172.16.254.1; 同时&#xff…

Spring Cloud Config采用数据库存储配置内容【Edgware+】

在之前的《Spring Cloud构建微服务架构:分布式配置中心》一文中,我们介绍的Spring Cloud Server配置中心采用了Git的方式进行配置信息存储。这一设计巧妙的利用Git自身机制以及其他具有丰富功能的Git服务端产品,让Spring Cloud Server在配置存…

颤抖吧,打工人!深信服推出员工离职倾向、工作摸鱼监测系统!

文 | 金磊 杨净(发自凹非寺)源 | 量子位前脚投简历,后脚就被精准裁员。一位网友最近就爆出了这样一段真实经历,而且还称被领导教育了一通:别以为你上班干啥我都不知道,你啥时候想走我都一清二楚&#xff01…

征稿 | “知识图谱赋能的知识工程:理论、技术与系统”专题投稿截止时间延长至2022年7月25日...

转载公众号 | 计算机科学编辑部征稿“知识图谱赋能的知识工程:理论、技术与系统”专题知识图谱(Knowledge Graph)方法与技术是人工智能在知识工程领域发展的最新前沿。知识图谱正在“感知智能”迈向“认知智能”的过程中扮演着重要角色。近年…

LeetCode 93. 复原IP地址(回溯)

1. 题目 给定一个只包含数字的字符串,复原它并返回所有可能的 IP 地址格式。 示例: 输入: "25525511135" 输出: ["255.255.11.135", "255.255.111.35"]来源:力扣(LeetCode) 链接:http…

为什么回归问题用MSE?

文 | Matrix.小泽直树最近在看李沐的实用机器学习课程,讲到regression问题的loss的时候有弹幕问:“为什么要平方?”如果是几年前学生问我这个问题,我会回答:“因为做回归的时候的我们的残差有正有负,取个平…

Spring Cloud Config Server迁移节点或容器化带来的问题

如果您跟我一样,目前正在使用Spring Cloud Config做为配置中心的话,本篇将来要描述的问题,强烈推荐了解和关注!因为这个问题目前存在于所有的版本中,还没有完全修复。 问题现象 为了说明下面的内容,我们可…

开源开放 | 面向家庭常见疾病的知识图谱(东南大学)

OpenKG地址:http://openkg.cn/dataset/medicalgraph开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:东南大学(王之畅,罗卓彦,朱启鹏,朱浩嘉,王湘源&#xf…

我不看好data2vec这类多模态融合的研究

文 | 谢凌曦知乎作者注:所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。谢谢!最近data2vec在twitter和知乎上小火了一把,有人说data2vec是个不错的工作,也有人说data2vec最成…

LeetCode 165. 比较版本号

1. 题目 比较两个版本号 version1 和 version2。 如果 version1 > version2 返回 1&#xff0c;如果 version1 < version2 返回 -1&#xff0c; 除此之外返回 0。 你可以假设版本字符串非空&#xff0c;并且只包含数字和 . 字符。 . 字符不代表小数点&#xff0c;而是…

会议交流 | 第十六届全国知识图谱与语义计算大会 (CCKS2022)

点击阅读原文&#xff0c;进入 CCKS2022 注册页面。OpenKGOpenKG&#xff08;中文开放知识图谱&#xff09;旨在推动以中文为核心的知识图谱数据的开放、互联及众包&#xff0c;并促进知识图谱算法、工具及平台的开源开放。

Spring Cloud Config对特殊字符加密的处理

之前写过一篇关于配置中心对配置内容加密解密的介绍&#xff1a;《Spring Cloud构建微服务架构&#xff1a;分布式配置中心&#xff08;加密解密&#xff09;》。在这篇文章中&#xff0c;存在一个问题&#xff1a;当被加密内容包含一些诸如、这些特殊字符的时候&#xff0c;使…

负采样,yyds!

文 | 徐澜玲源 | RUC AI Box引言&#xff1a;负采样方法最初是被用于加速 Skip-Gram 模型的训练&#xff0c;后来被广泛应用于自然语言处理 (NLP)、计算机视觉 (CV) 和推荐系统 (RS) 等领域&#xff0c;在近两年的对比学习研究中也发挥了重要作用。本文聚焦于负采样方法&#x…

图谱实战 | 10 个前沿落地应用案例分享(附下载)

转载公众号 | DataFunSummit导读&#xff1a;知识图谱和图学习都是这两年比较热门的研究方向。近年来&#xff0c;无论是工业界还是学术界&#xff0c;都陆续提出了自己的知识图谱构建平台&#xff0c;知识图谱被广泛应用在推荐、医疗等行业场景&#xff1b;各个公司、各个研究…

LeetCode 1080. 根到叶路径上的不足节点(递归)

1. 题目 给定一棵二叉树的根 root&#xff0c;请你考虑它所有 从根到叶的路径&#xff1a;从根到任何叶的路径。&#xff08;所谓一个叶子节点&#xff0c;就是一个没有子节点的节点&#xff09; 假如通过节点 node 的每种可能的 “根-叶” 路径上值的总和全都小于给定的 lim…

Spring Cloud构建微服务架构:分布式配置中心(加密解密)

在微服务架构中&#xff0c;我们通常都会采用DevOps的组织方式来降低因团队间沟通造成的巨大成本&#xff0c;以加速微服务应用的交付能力。这就使得原本由运维团队控制的线上信息将交由微服务所属组织的成员自行维护&#xff0c;其中将会包括大量的敏感信息&#xff0c;比如&a…

112页机器学习数学知识整理!数学基础回顾.pptx

机器学习的基础是数学&#xff0c;数学基础决定了机器学习从业人员的上限&#xff0c;想要学好机器学习&#xff0c;就必须学好数学。这么多数学知识&#xff0c;不管是硕士阶段还是博士阶段的研究生&#xff0c;是没法学完全的&#xff0c;必须有所取舍&#xff0c;黄海广博士…

LeetCode 274. H指数(排序,哈希)

1. 题目 给定一位研究者论文被引用次数的数组&#xff08;被引用次数是非负整数&#xff09;。编写一个方法&#xff0c;计算出研究者的 h 指数。 h 指数的定义: “h 代表“高引用次数”&#xff08;high citations&#xff09;&#xff0c;一名科研人员的 h 指数是指他&…

论文浅尝 | 记忆推理:最近邻知识图谱嵌入

笔记整理&#xff1a;孙硕硕&#xff0c;东南大学硕士&#xff0c;研究方向为根因溯源。Citation: Zhang N, Xie X, Chen X, et al. Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings[J]. arXiv preprint arXiv:2201.05575, 2022.动机大多数知识图…

LeetCode 275. H指数 II(二分查找)

1. 题目 给定一位研究者论文被引用次数的数组&#xff08;被引用次数是非负整数&#xff09;&#xff0c;数组已经按照升序排列。编写一个方法&#xff0c;计算出研究者的 h 指数。 h 指数的定义: “h 代表“高引用次数”&#xff08;high citations&#xff09;&#xff0c;…