AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

本文转自公众号:AI科技评论


AI 科技评论按:正在美国新奥尔良召开的 AAAI 2018 的经典论文奖颁给了《Algorithm and Tool for Automated Ontology Merging and Alignment》。这篇论文发表在 2000 年的第 17 届 AAAI 大会上。这次颁奖是为了表彰这篇论文在本体匹配和集成研究方面的先驱性贡献,论文中分析了这个问题的具体情况,并提出了首个创新的解决方案。组委会认为这篇论文直到今天也有重要意义,它非常清晰地定义了本体合并问题,并创造了启发式的工具来应对这个问题。

根据维基百科介绍,在计算机科学与信息科学领域,理论上,本体是指一种「形式化的,对于共享概念体系的明确而又详细的说明」。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。作为一种关于现实世界或其中某个组成部分的知识表达形式,本体论目前的应用领域包括:人工智能、语义网、软件工程、 生物医学信息学、图书馆学以及信息架构。

趁获奖机会,AAAI 组委会邀请了论文作者之一的 Natasha Noy 进行演讲。当年论文发表时 Natasha Noy 还在斯坦福大学攻读,如今她就职于谷歌研究院。

AI 科技评论把演讲主要内容整理如下,并做了不改变原意的编辑和修改。

Natasha Noy:谢谢邀请我演讲,这是一次很有趣的机会。

当时研究这个问题的时候我还在斯坦福大学研究生物医学信息,当我们在研究神经细胞的时候遇到了这个问题。论文完成后投到 AAAI ,当告知被接收之时,我们也觉得很惊喜。在座的各位如果对自己的论文不是很有信心,其实也可以投投看,最坏还能怎么样呢。今天演讲主要包含以下四部分内容:

本体论的早期发展:需要合并,需要对齐

其实本体论的研究由来已久,它可以研究任何实物上的任何一个组成部分。它的定义可以看作是世界上任意两个事物之间的关系。到了上世纪 80-90 年代,人工智能的出现重新统一化了问题的形式。

这是当年的论文,也有那个时代定义的框架用来交换知识、正式地定义问题。如果让智能体能够对世界建立起正式的描述,而且理解这些描述,它们就有可能可以合作解决问题。

这种分享知识的想法在当时还很初级,现在已经迅速发展到了知识图谱;虽然听起来不太一样,但是其实和谷歌知识库是一回事。现在许多公司都有知识图谱,用它来描述关系和实体。

最初的本体论方法并不正式,现在已经发展得很正式。当时有两个问题在各种论坛上反复被讨论提及,一个是「本体论是什么?它需要变得有多正式?什么时候才能提取出确定性的内容?」在 AAAI 1999 的论坛上就讨论了这个问题。

另一个问题是「是否每个领域都需要一个独立的本体论,还是可以有一组共通的理论在所有领域内共享」,比如在金融、生物、医疗中的本体论是否相同。这个问题的两种观点当时都有很多人强烈支持,有一些针对单个领域的本体论提出后就得到了很多人支持,典型的例子比如基因领域,表达基因和生物函数的时候,不需要考虑别的麻烦的东西,直接使用基因的本体论就好了。

到了我们写论文的时候,我们关心的是创造出一个足够规律化的、足够哲理化的本体论理论作为知识分享的描述方法的全部内容,不仅很适合阅读,也会构建出我们自己的本体论,从而有更多的研究和项目可以建立在上面,我们自己也会有一些交互性的工具可以使用。

重新审视这篇 AAAI 2000 的论文

现在看这篇论文的话,这确实是一次有趣的实践,尝试为这个问题的研究做出贡献。而且反正当时也有很多人在做本体合并和对齐研究,不管我们到底有没有发表这篇论文,我们也就是刚好碰上了这个热门的研究课题。

不过有几件我们尝试做的事情到现在都还有意义,我们尝试给本体合并和对齐下定义。当时人们只能做到:这是一件事情,这是另一件事情,然后有一些公共知识的表征。

我们也设计并实现了一个算法 PROMPT,作为广泛使用的开发工具 Protege 的插件,有不少研究者用它来帮助解决他们的问题。

另一件我们做到了、但当时并不那么流行的事情,就是这个工具是交互式的,我们其实花了很多心血开发它。它的规模并不大,我们当时并没有很多资源,不过我们还是在考虑如何评估一个这样的交互式系统,要问哪些问题,我们如何评估它确实有所不同。

合并还是对齐,这是我们当时主要考虑的问题之一,这真的是两个不同的过程吗?我们必须有一个基于本体论的工具来处理它们。在研究了一些案例之后我们觉得,确实不能把合并和对齐两件事混为一谈,必须各自独立。我们就给它们做了不同的定义,虽然它们内部的机理很相似,但确实是两件不同的任务。

据此我们也就提出了我们的算法 PROMPT,它首先提出初步的建议,然后进入这个逐步选择、提议、验证的过程。

这是我们的软件界面,作为 Protege 的插件。

我们需要考虑如何评估它。首先我们考虑了把人做实体合并的表现和工具的表现做对比,一个人用 PROMPT,一个人不用,把做出的动作和工具建议的部分做对比,据此计算准确率和召回率。在 2000 的时候还很少有人考虑这些问题,这可能也是我们的论文显得突出的原因。

这一点在今天的意义就是,我们需要考虑我们的交互式系统实际上要做什么、我们要解决的问题到底是什么、是交互的部分更重要还是算法的部分更重要。

自 2000 年之后的本体匹配、合并、对齐的发展

论文本身就说这么多。当时就有很多不同的本体论理论在发展,到现在这个领域的研究内容非常的丰富,在谷歌上搜索都是上万个结果。几乎任何相关学术会议都有本体论对齐的会场或者论坛。

这么多年发展下来,本体论的方法方面也出现了很多有意思的点子,最初有词法相似性、结构相似性;也有了使用外部资源的方法;最新的还有机器学习的方法。

之所以这个领域有这么多的研究成果,我觉得本体对齐评估组织(OAEI)也功不可没。它从 2004 年开始运转,每年都会设计不同的任务对各种方法进行评估,基本上创建了许多对齐任务的黄金标准。这些任务里也是有的更正式一些,有的不正式一些,有基于不同语言的本体对齐对比,尤其也有我们当时研究的生物医学的。

参与 OAEI 评估的系统在前几年也不断增多。

当今的本体论系统发展

我近期看了 OAEI 上的最新结果,医学的这个是唯一一个大规模实验得到的结果,不过 2017 年的最佳表现的系统并没有比 2004 年的系统提高太多。

也有过新的互动式评估的匹配测试。

本体论的研究方面这些年来确实有各种各样的进步,提升了准确率和召回率、能解决更复杂的问题、有交互式评估的工具、学术会议也有本体论的会场等等。

不过工业界运用本体论的例子还非常少,工业级会议几乎不讨论本体对齐,他们确实有知识图谱,但用的方法不是本体对齐。

我自己也在思考为什么。我也尝试查资料了解实际应用的真实需求,想到了这些问题,但还没有确切的答案。再过 15 年,本体论有更好的发展的时候可能我们会有更好的答案。

不过挑战可能也并不在于找到更好的对齐算法,而是让让更多的实际应用能够使用算法。

谢谢大家!




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ICLR2020 | 如何判断两个神经网络学到的知识是否一致

人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。在最终提交的 2594 篇论文中,有 687 篇被接收,接收率为 26.5%。本文介绍了上海交通大学张拳石团队的一篇接收论文——《Knowledge Consistency between Neural Networks and B…

7张图学会SQL

第1周:SQL入门 学习SQL语句的书写语法和规则从零学会SQL:入门​www.zhihu.com 第2周:查询基础 Select查询语句是SQL中最基础也是最重要的语句,这周我们就来利用Select来对表中的数据进行查询。从零学会SQL:简单查询​w…

大公司稳定工作和创业之间如何选择?

“ 是留在大公司,还是加入小型创业公司,还是自己创业,面对房价每年高涨的趋势,面对未来的不确定,应该怎样选择。 作为一个亲历者,希望你看完后能有所启发。 本文作者,陈睿 优知学院创始人 优知…

论文浅尝 |「知识表示学习」专题论文推荐

本文转载自公众号:PaperWeekly。本期论文清单来自清华大学博士生韩旭和北师大本科生曹书林,涵盖了近年知识表示学习方向的重要论文。[ 综述类 ]■ 论文 | Representation Learning: A Review and New Perspectives■ 链接 | https://www.paperweekly.sit…

如何选择一家公司

不管是刚毕业的大学生还是工作几年的职场朋友,每个人都会面临选择公司和行业的困扰,我也相信每个人都还记忆犹新你的第一份工作以及让你无比难忘的一家公司。有时候我们也盲目的所求,其实,偶尔停下来思考下你真想去的地方&#xf…

LightGBM最强解析,从算法原理到代码实现~

1 LightGBM简介 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛&#xf…

数据分析师基本技能——SQL

我们做数据分析工作时,多数数据来源于数据库,SQL非常方便我们访问和查询数据库。 SQL 作为数据分析师的基本技能,那么需要掌握哪些SQL核心技能 理解数据库SQL基础重点知识:查询,更新,提取,插入&…

论文浅尝 | 基于置信度的知识图谱表示学习框架

本文转载自公众号:PaperWeekly。作者丨谢若冰单位丨腾讯微信搜索应用部研究方向丨知识表示学习知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, trail entity&am…

史上最强Java架构师的13大技术能力讲解! | 附架构师能力图谱

从程序员进阶成为架构师,并非一蹴而就,需要系统化、阶段性地学习,在实战项目中融会贯通,这如同打怪通关,我们得一关一关突破,每攻破一个关口,就能得到更精良的装备,技能值也随之不断…

写给运营同学和初学者的SQL入门教程

作者简介 多肉,饿了么资深python工程师。曾在17年担任饿了么即时配送众包系统的研发经理,这篇文章最早的版本就诞生于那段时间,目前负责配送相关业务系统的整体稳定性建设。个人比较喜欢c和python,最近有点迷rust,同时…

强化学习,路在何方?

▌一、深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL&…

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

本文转载自公众号:PaperWeekly。作者丨罗凌学校丨大连理工大学博士生研究方向丨深度学习,文本分类,实体识别联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就…

一篇文章搞懂架构师的核心技能

“ 这是架构师系列的第一篇:核心技能,希望这个系列能完全揭示架构师这个职位:我先从核心技能开始,后续还有架构师之路,架构实战等架构师系列文章。 本文作者 陈睿 优知学院创始人,前携程定制旅游CTO,在互联…

史上最全的分词算法与工具介绍

分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。…

论文解读:Attention is All you need

论文解读:Attention is All you need习翔宇​北京大学 软件工程博士在读​关注他192 人赞同了该文章Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这篇论文采…

论文浅尝 | 基于神经网络的知识推理

本文转载自公众号:PaperWeekly。论文笔记来自 PaperWeekly 社区用户 britin。本文对基于 RNN 的从大规模知识库中进行推理进行了精度和可操作性的改善,提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。如果你对本文工作感兴趣&#x…

手把手教你成为年薪60万的架构师

“ 这篇文章是帮助你成为架构师系列文章其中一篇,偏向0-5年工作的IT程序员员、架构师同学。 如果你能掌握这个系列提到的内容的70%左右,去阿里拿个P7问题不大,阿里的P7基本能拿到60W左右的年薪。 提醒一点,不要小看和不重视基础&a…

图解强化学习

小夕寄语 最近五年,是强化学习(Reinforcement Learning, RL)爆发的时期。RL是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试…

领域应用 | 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

本文转载自公众号:阿里技术。 阿里妹导读:搜索“西红柿”,你不但能知道它的营养功效、热量,还能顺带学会煲个牛腩、炒个鸡蛋!搜索引擎何时变成“暖男”了?原来背后…

阿里P8架构师谈:开源搜索引擎Lucene、Solr、Sphinx等优劣势比较

开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr Elasticsearch Katta、Compass等都是基于Lucene封装。 你可以想象Lucene系有多强大。 2.Sphinx搜素引擎,c开发,简单高性能。 以下重点介绍最常用的开源搜素引擎&#…