论文浅尝 | Data Intelligence - 多篇语义资源论文

本文转载自公众号:DI数据智能 。 


              

编者按:Data Intelligence最新发表一组语义资源论文,包括世界著名语义网技术专家荷兰阿姆斯特丹自由大学计算机科学系Frank van Harmelen教授团队的Constructing and Cleaning Identity Graphs in the LOD Cloud,人工智能和语义网研究领域国际知名学者、美国伦斯勒理工学院Deborah McGuinness教授团队的The Semantic Data Dictionary – An Approach for Describing and Annotating Data,英国开放大学研究者团队的The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas,美国堪萨斯州立大学著名语义网技术专家Pascal Hitzler教授团队的GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology以及意大利Cefriel公司知识技术团队专家的文章:Refining Linked Data with Games with a Purpose 。

论文1

Constructing and Cleaning Identity Graphs in the LOD Cloud(在关联开放数据云上构建并清理等价关系图谱)

引用本文:J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F.Saïs. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057

摘要:因为缺少个体命名的权威机构,所以在语义网上普遍存在着不同数据集用不同名称指代同一个体的现象。当使用多个名称表示同一个体时,我们需要使用 owl:sameAs 语句来关联数据,并促进重用。2009年开始就有研究指出使用 owl:sameAs 属性时有时会产生错误。我们之前的工作展示过一张包含超过5亿条明确含有 owl:sameAs语句和350亿条暗含owl:sameAs语句的等价关系图谱(identity graph)。我们提出了一个可扩展的方法,可自动计算每一条等价语句的错误程度。在本文中,我们生成了整张等价关系图谱的子图,这些子图都包含一定程度的错误数据。本文结论是尽管语义网中包含了许多错误的owl:sameAs语句,但语义网上的数据仍是可用的,同时我们可把因错误使用owl:sameAs语句带来的负面影响降到最低。

   阅读全文,请扫描二维码

论文 2

The Semantic Data Dictionary – An Approach for Describing and Annotating Data(语义数据字典——一种描述和注释数据的方法)

引用本文:S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A.Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary – an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/10.1162/dint_a_00058

摘要:数据集提供者在以数据字典的形式发布数据时,通常会为字典表里每列数据提供文本描述。虽然这些本文描述有助于用户正确理解数据集中每列数据的含义,但并不适合机读,也没有遵循统一的标准规范。已有研究指出语义数据字典可弥补现有数据字典的缺陷。语义数据字典,规定了数据的语义表示规范,可使各种不同数据集的数据表达规范化。本研究的语义数据字典基于生物医学数据构建,但实际上这种方法可以、并已被用于不同的学科领域。利用语义数据字典可促进数据的被发现、互操作、可重用,可溯源和可再现。本文展示了可公开获取的美国国家健康与营养检验调查数据集的语义标注的实例,讨论了数据建模的挑战,描述了研究者利用语义数据字典方法进行的工作,包括美国国立卫生研究院资助的大型健康数据网站和伦斯勒理工学院和IBM合作的“分析、学习和语义”健康赋能项目。在评测部分,研究者们设计了四个指标:数据、语义、FAIR原则和普适性,分别对比了语义数据字典、传统数据字典、映射语言和数据集成工具在这四个指标上的得分。研究者们也对该方法的局限性进行了讨论并对未来研究方向进行了展望。

   阅读全文,请扫描二维码

论文 3

The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas(计算机科学本体:自动生成对研究领域的全面分类)

引用本文:A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F. Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00055

摘要:研究领域本体是用来描绘某个研究领域特征,探索和分析该领域的重要工具。有一些研究领域已经编制出能够全面描绘本领域的大型主题词表,例如生物医学领域的MeSH医学主题词表,物理学领域的PhySHC主题词表。相比之下,计算机科学领域的主题词表粒度粗,而且发展缓慢。例如,ACM分类系统只包括2,000个研究主题,而且最近的版本还是2012年发布的。在本文中,我们介绍了能自动对研究领域进行分类的大型计算机科学本体( Computer Science Ontology,CSO),它包括1,400个主题和162,000条语义关系。该本体是通过在一个包含1,600万篇科技文章的大型数据集上运用 Klink-2算法而建立的。

 CSO的优势体现在:1)本体中的大量主题没有在其他分类体系中出现过;2)通过在最近出版的文章数据集上运行Klink-2算法可自动升级CSO。在CSO基础上开发的几款工具已被Springer Nature编辑团队采用,而且CSO已经被用来作为解决方案,例如对科研出版物进行分类,发现新的研究社区,预测研究趋势等。为推广CSO的应用,我们也发布了可用来自动分类研究论文的CSO分类器,可帮助用户下载和研究CSO、提供对CSO的细粒度反馈的CSO门户网站。用户可以使用此网站进行导航,对本体的各个部分进行可视化,对主题和语义关系给出评分,提出需要补充哪些主题和语义关系的建议。

    此外,CSO主体数据已在Data Intelligence期刊数据平台上与论文关联发布,欢迎大家下载使用。

论文全文地址为:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00055

数据下载地址为:http://www.en.scidb.cn/journalDetail?dataSetId=662664481360314368&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal#(需先注册后下载)

阅读全文,请扫描二维码

论文 4

GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology (GeoLink数据集:基于真实数据的复杂本体匹配研究基准数据集)

引用本文:L. Zhou, M. Cheatham, A. Krisnadhi& P.Hitzler. GeoLink data set: A complex alignment benchmark from real-worldontology. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00054

摘要:本体对齐的研究已经有十多年的历史,研究人员已经提出了很多方法,并开发了系统来发现两个本体之间一对一的匹配关系。但是,很少有本体对齐系统的研究关注本体间复杂的匹配关系。这其中的原因可能是目前并没有广泛接受的包含复杂关系的本体对齐基准数据集。本文基于GeoLink项目构建了一个真实世界数据集,可作为复杂本体匹配的基准数据集。本数据集包括两个本体,GeoLink基本本体(GeoLink Base Ontology, GBO) 和GeoLink模块本体(GeoLink Modular Ontology, GMO), 以及一个在咨询各学院领域专家后手工构建的校验参考数据集。

 本数据集实体对齐包括一对一、一对多、多对多三种类型,使用EDOAL语言(即Expressive and Declarative Ontology Alignment Language,本体匹配表达及声明语言)和规则语法来描述实体对应属性关系。基准数据集的最初版本已经进行了扩充,现在的版本包括由七位地球科学家提供的真实世界实例数据,而且两个本体的数据集都已经发布。此基准数据集可用在对齐系统中,或已经有训练数据的系统。此外,此数据集已经被用于本体对齐竞赛(Ontology Alignment Evaluation Initiative, OAEI)中的复杂本体匹配的比赛中,帮助研究者们测试他们的自动对齐系统和算法。本文也分析了复杂本体对齐工作面临的挑战,并提供了未来研究工作的路线图。

 该论文描述的数据集已在Data Intelligence期刊数据平台在线发布,敬请大家下载。

论文全文地址为:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00054

数据下载地址为:http://www.en.scidb.cn/journalDetail?dataSetId=662677835797757952&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal(需先注册后下载)

阅读全文,请扫描二维码

论文 5

Refining Linked Data with Games with a Purpose(用有目的的游戏优化关联数据)

引用本文:I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00056。

摘要:随着关联数据和知识图谱的兴起,我们迫切需要更多的数据集以及更准确的数据来补充缺失的知识,发现和改正已有数据的错误。研究人员已经提出了一些解决方案,这些方案大多依赖机器学习和自然语言处理技术,通常也需要一种“黄金标准”,即“参考标准数据”来训练自动分类模型。“黄金标准”是人工构建的,或通过邀请领域专家参与构建,或采用众包和人力计算的解决方案构建。本文提出了一种开源软件框架,通过激励措施启发用户参加网上游戏,我们称之为“有目的的游戏”(Games with a Purpose, GWAP),来优化关联数据,也就是说通过众包的方式得到部分“参考标准数据”。本框架支持的关联数据的功能包括创建数据链接,给链接评分和校验链接。通过介绍本框架的支持功能和定义每个众包任务是如何帮助实现这些功能,我们展示了本文提出的框架方法所具有的现实意义。

   文中介绍了利用“有目的的游戏”(GWAP)玩家贡献的数据推断“参考标准数据”的方法。通过对比GWAP和传统众包方法来说明本文方法的必要性,本文解释并描述了方法过程,通过与目前最先进的方法对比显示本文方法的先进性。本文提出的方法有多种用途:文中描述了基于本方法的不同应用来展示它的可重用性和可扩展的潜力。文中也提供了本文方法的参考资料,包括整个教程,让新手在几个小时内可以学会使用本框架方法拓展新的应用案列。

         论文全文地址为:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00056

   阅读全文,请扫描二维码

                                                                                                               

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479078.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人物志 | 美团首席科学家夏华夏:不断突破边界的程序人生

“成长没有什么秘笈,就是坚持不断地一点点突破自己的边界就好。” 这是美团首席科学家、无人配送部总经理夏华夏在刚刚过去的“1024 程序员节”时送给技术同行的一句话。 这也是夏华夏自己的人生写照:从没摸过计算机的山东高考状元到清华计算机系的学霸&…

我的《Android官方开发文档Training系列课程中文版》的中期翻译计划

从2016年的3月份开始到现在,对于Android文档的翻译已经进行了两个月的时间。虽然数量还不及总篇数的一半,但是经过一番整理,发现翻译的文章还不少,目前为止已经有56篇了。这个过程也陆陆续续的坚持了下来。现在回头看刚开始翻译的…

Github星标超3k的推荐系统入门资料合集(含教程、论文、代码、数据)

本篇文章是对公众号《机器学习与推荐算法》历史文章的汇总以及对干货内容的梳理,力争把最全面的干货与最完整的知识体系以最清晰的方式呈现给大家,希望大家能够精准快速地获取到自己想学习的内容,尽到一个干货推荐系统应尽的职责。1 历史文…

Python3中遇到UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in ordinal not in range(128)

原文链接:https://blog.csdn.net/th_num/article/details/80685389 Python3中遇到UnicodeEncodeError: ascii codec cant encode characters in ordinal not in range(128) 但是在windows上面运行代码正常。 原因是因为:linux系统语言导致的。 查看了一下…

论文浅尝 | 低资源文本风格迁移数据集

来源:AAAI2020论文链接:https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf概述:低资源样式化的序列到序列(S2S)生成是高需求的。但由于数据集…

Android官方开发文档Training系列课程中文版:动画视图之转场框架介绍

原文地址:http://android.xsoftlab.net/training/transitions/index.html 引言 Activity所呈现的UI经常会由用户的输入或者其它事件而发生变化。比如,一个含有输入框的Activity,在用户输入要查找的关键字之后,这个输入框就会隐藏…

机器学习竞赛中,为什么GBDT往往比深度学习更有效?

在过去的几年里,大多数的推荐算法都是基于深度学习(DL)方法。遵循我们领域的一般研究实践,这些工作证明了新的DL方法在离线实验中优于其他不基于深度学习的模型。然而,在与推荐相关的机器学习竞赛中(如与年…

2020年算法工程师技术路线图

原文链接:https://cloud.tencent.com/developer/article/1689082 重磅干货,第一时间送达作者丨字节知乎来源丨https://zhuanlan.zhihu.com/p/192633890极市导读算法工程师如何获得技术方面的成长?本文从工程基础、算法基础、算法工程交叉、工…

浅谈大型互联网企业入侵检测及防护策略

前言 如何知道自己所在的企业是否被入侵了?是没人来“黑”,还是因自身感知能力不足,暂时还无法发现?其实,入侵检测是每一个大型互联网企业都要面对的严峻挑战。价值越高的公司,面临入侵的威胁也越大&#x…

征稿 | Big Data Research 专刊(影响因子 2.95)

征稿截止:2020年06月15日近年来,学术界和工业界领域都相继构建和发布了越来越多的大规模知识图谱,如DBpedia、YAGO、Freebase、Wikidata、Google knowledge Graph、Microsoft Satori、Facebook Entity Graph等。事实上,来自不同领…

Android官方开发文档Training系列课程中文版:动画视图之场景创建

原文地址:http://android.xsoftlab.net/training/transitions/scenes.html 场景存储了View层级的状态,包含所有的View及View的属性。转场框架在启动场景与结束场景之间运行动画。启动场景通常由当前的UI状态自动决定。对于结束场景,转场框架…

不要再问Python了!

很多小伙伴问如何学习Python,哪里可以找到实战的Python项目,有没有爬虫案例等等。今天给大家分享一份我整理的Python大全学习资料(文末有获取方式)。话不多说,直接上干货。首先,全部资料目录压缩简单看下里…

GCN】在NLP中应用GCN的几种构图方法整理

GCN】在NLP中应用GCN的几种构图方法整理:https://blog.csdn.net/qq_27590277/article/details/106264292

Android官方开发文档Training系列课程中文版:动画视图之应用场景

原文链接:http://android.xsoftlab.net/training/transitions/transitions.html 在转场框架中,动画是由一帧帧的图像连续绘制形成的,这一帧帧的图像描述了启动场景到结束场景的整个过程。转场框架将这些动画作为一个转场对象,这个对象包含了…

CAT 3.0 开源发布,支持多语言客户端及多项性能提升

项目背景 CAT(Central Application Tracking),是美团点评基于 Java 开发的一套开源的分布式实时监控系统。美团点评基础架构部希望在基础存储、高性能通信、大规模在线访问、服务治理、实时监控、容器化及集群智能调度等领域提供业界领先的、…

论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库

论文笔记整理:吴林娟,天津大学硕士。链接:https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf动机具有挑战性、值得信赖的评估数据可以促进多语言模型的发展,为了鼓励对多语言问答技术的研究,作者提出了数据集Ty…

读博总结的总结:读博的那些事儿

文 | 胡津铭知乎本文已获作者授权,禁止二次转载我时常给同学们推荐各种我看过的优质读博总结与建议文章,今天有了些空,整理一下我看过的优质文章。排名不分先后,想到啥写啥。先推荐英文的资源好了,因为我最推荐的一篇文…

NLP事件抽取综述(上中下):中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型 NLP事件抽取综述下:

Android官方开发文档Training系列课程中文版:动画视图之创建自定义转场动画

原文地址:http://android.xsoftlab.net/training/transitions/custom-transitions.html 自定义转场可以创建自定义动画。比如,可以定义一种动画来更改文本的颜色或者将输入框的颜色置灰以表示不可用。 自定义转场与内置转场相同,都作用在Vi…

LeetCode 55. 跳跃游戏(贪心)

1. 题目 给定一个非负整数数组,你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个位置。 示例 1:输入: [2,3,1,1,4] 输出: true 解释: 从位置 0 到 1 跳 1 步, 然后跳 3 步到达最后一个位置。 示例…