论文浅尝 | 基于置信度的知识图谱表示学习框架

本文转载自公众号:PaperWeekly



作者丨谢若冰

单位丨腾讯微信搜索应用部

研究方向丨知识表示学习


知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, trail entity)的形式来存储知识,其中蕴含的知识数量巨大且时常更新。


目前,人工标注已经不能满足知识图谱更新和增长的速度,但自动化构建知识图谱的过程中往往容易引入一些噪声和冲突。


由于大多数传统知识表示学习(Knowledge, Representation Learning, KRL)方法都假设现有知识图谱中的知识是完全正确的,因此会带来潜在误差。


于是,如何从带有噪声或冲突的知识图谱中学习到更好的知识表示向量,同时又能够发现已有知识图谱中可能存在的错误,就成为了亟需解决的问题。 


来自清华大学/腾讯的谢若冰研究员,清华大学的刘知远老师,腾讯的林芬研究员和林乐宇研究员,在即将发表于 AAAI 2018 的论文《Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence》中,提出了一种新的基于置信度的知识表示学习框架(confidence-aware KRL framework,CKRL),能够发现知识图谱中潜在的噪声或冲突,同时更好地从中学习知识表示


作者在 CKRL 模型中主要参考了 TransE 的思路,使用了平移假设(translation-based assumption),并增加了三元组置信度(triple confidence)的概念。整体能量方程如下:



其中,基于平移假设,有:



对于 triple confidence,作者设计了三种模式,分别是 Local Triple Confidence,Prior Path Confidence 以及 Adaptive Path Confidence,基于平移假设,使用三元组的实体、关系,以及实体之间的路径的向量信息,综合对三元组的置信度进行动态调整与学习。


具体地,对于使用 path 的置信度,作者假设如果 (h,r,t) 中 h,t 有越多包含较多信息流的路径,并且这些路径的向量表示与 r 越相似,那么 (h,r,t) 三元组的置信度越高。


整个训练过程中,知识表示和三元组的置信度在能量函数指导下相互影响并动态优化,最终得到考虑置信度的知识表示,并能基于此知识表示完成知识表示学习和知识图谱噪声探测等任务。



在学习的过程中,作者使用了 margin-base score function 进行学习,希望正例得分能够高于负例得分。需要注意的是,由于作者使用的是三元组的向量信息,所以三元组的置信度会在训练过程中发生动态变化。


低置信度的三元组在学习中会相应收到打压,最终使得带有噪声的知识图谱中的知识表示向量能够学得更好,同时减少噪声和错误带来的影响。


CKRL 模型在 noise detection、knowledge graph completion 和 triple classificaiton 三个任务上都取得了较好的结果,同时该模型的思想还可以直接扩展至知识构建环节中,在自动构建方法情境下,帮助建立更加精准的知识图谱。


作者的话


本文是作者在清华大学硕士期间以及在腾讯微信搜索应用部期间完成的工作,在知识表示学习框架中引入了基于结构信息的置信度的概念,能够同时提升知识表示学习和知识图谱噪声探测的效果


作者之前的多篇工作致力于融合多源信息提升知识表示性能,但在知识驱动的实际任务中也存在很多诸如噪声等现实问题。本次工作即是在知识图谱置信度上的一次初步探索,相关思路也可以引入知识构建等知识工程其它环节


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 查看论文 & 源代码




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480834.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

史上最强Java架构师的13大技术能力讲解! | 附架构师能力图谱

从程序员进阶成为架构师,并非一蹴而就,需要系统化、阶段性地学习,在实战项目中融会贯通,这如同打怪通关,我们得一关一关突破,每攻破一个关口,就能得到更精良的装备,技能值也随之不断…

写给运营同学和初学者的SQL入门教程

作者简介 多肉,饿了么资深python工程师。曾在17年担任饿了么即时配送众包系统的研发经理,这篇文章最早的版本就诞生于那段时间,目前负责配送相关业务系统的整体稳定性建设。个人比较喜欢c和python,最近有点迷rust,同时…

强化学习,路在何方?

▌一、深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL&…

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

本文转载自公众号:PaperWeekly。作者丨罗凌学校丨大连理工大学博士生研究方向丨深度学习,文本分类,实体识别联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就…

一篇文章搞懂架构师的核心技能

“ 这是架构师系列的第一篇:核心技能,希望这个系列能完全揭示架构师这个职位:我先从核心技能开始,后续还有架构师之路,架构实战等架构师系列文章。 本文作者 陈睿 优知学院创始人,前携程定制旅游CTO,在互联…

史上最全的分词算法与工具介绍

分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。…

论文解读:Attention is All you need

论文解读:Attention is All you need习翔宇​北京大学 软件工程博士在读​关注他192 人赞同了该文章Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这篇论文采…

论文浅尝 | 基于神经网络的知识推理

本文转载自公众号:PaperWeekly。论文笔记来自 PaperWeekly 社区用户 britin。本文对基于 RNN 的从大规模知识库中进行推理进行了精度和可操作性的改善,提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。如果你对本文工作感兴趣&#x…

手把手教你成为年薪60万的架构师

“ 这篇文章是帮助你成为架构师系列文章其中一篇,偏向0-5年工作的IT程序员员、架构师同学。 如果你能掌握这个系列提到的内容的70%左右,去阿里拿个P7问题不大,阿里的P7基本能拿到60W左右的年薪。 提醒一点,不要小看和不重视基础&a…

图解强化学习

小夕寄语 最近五年,是强化学习(Reinforcement Learning, RL)爆发的时期。RL是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试…

领域应用 | 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

本文转载自公众号:阿里技术。 阿里妹导读:搜索“西红柿”,你不但能知道它的营养功效、热量,还能顺带学会煲个牛腩、炒个鸡蛋!搜索引擎何时变成“暖男”了?原来背后…

阿里P8架构师谈:开源搜索引擎Lucene、Solr、Sphinx等优劣势比较

开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr Elasticsearch Katta、Compass等都是基于Lucene封装。 你可以想象Lucene系有多强大。 2.Sphinx搜素引擎,c开发,简单高性能。 以下重点介绍最常用的开源搜素引擎&#…

知识图谱(KG)中的同义词挖掘

前言 在语义搜索推荐、智能问答等场景中,随着通过各类方法挖掘得到知识数据越来越多,我们需要考虑一个新问题——新老知识合并加以整合?比如 “拉肚子” 与 “腹泻” 实则同一意义,但是因为在字面上差距较大,在各抽取任…

注册第一次练习

注册 使用微信注册练习使用Markdown编辑器 Markdown编辑器功能与语法支持 全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能&…

SQL 菜鸟教程

第一节:SQL 语法 数据库表 一个数据库通常包含一个或多个表。每个表有一个名字标识(例如:"Websites"),表包含带有数据的记录(行)。 在本教程中,我们在 MySQL 的 RUNOOB 数据库中创建了 Websit…

领域应用 | 深度学习在知识图谱构建中的应用

本文转载自公众号:阿里技术。深度学习模型介绍DeepDive系统在数据处理阶段很大程度上依赖于NLP工具,如果NLP的过程中存在错误,这些错误将会在后续的标注和学习步骤中被不断传播放大,影响最终的关系抽取效果。为了避免这种传播和影…

阿里P8架构师谈:Quartz调度框架详解、运用场景、与集群部署实践

以下将分别从Quartz架构简介、集群部署实践、Quartz监控、集群原理分析详解Quartz任务调度框架。 Quartz简介 Quartz是Java领域最著名的开源任务调度工具,是一个任务调度框架,通过触发器设置作业的定时运行规则,来执行定时任务。其中quartz集…

Bert在CV领域的应用

一只小狐狸带你解锁NLP/ML/DL秘籍老板老板,听说BERT是个瞎子此话怎讲?它能理解语言,但是理解不了小夕的自拍!video-BERT了解一下喵喵喵?AI的三大核心板块(CV/Speech/NLP)近几年都相继取得了非常…

CRISP-DM:数据挖掘标准流程

CRISP-DM:数据挖掘标准流程 框架 相关信息 https://blog.csdn.net/qq_36387683/article/details/82932680 https://blog.csdn.net/hadoopdevelop/article/details/79282832

训练大型神经网络方法总结

一只小狐狸带你解锁 炼丹术&NLP 秘籍前阵子微软开源了DeepSpeed训练框架,从测试效果来看有10倍的速度提升,而且对内存进行了各种优化,最大可以训练100B(illion)参数的模型。同时发布了这个框架训练出的17B模型 Turing-NLG,处于…