论文浅尝 | DEKR: 一个基于描述增强知识图谱的机器学习方法推荐系统

996381c751302fd1e1f50cfa1039b08b.png

笔记整理:刘尧锟,天津大学硕士

链接:https://dl.acm.org/doi/pdf/10.1145/3404835.3462900

动机

面对大量的机器学习(ML)方法,为给定的数据集和任务选择合适的方法是一个挑战。一般来说,ML方法或数据集的名称相当简洁,缺乏具体的解释,ML实体之间丰富的潜在关系没有得到充分的探索。在本文中,我们提出了一种基于描述增强的机器学习知识图谱的方法DEKR,来为给定的ML数据集推荐合适的ML方法。所提出的知识图谱(KG)不仅包含实体之间的连接,还包含数据集和方法实体的描述。DEKR将结构信息与知识图谱中实体的描述信息相融合,是一个深度混合的推荐框架,融合了基于知识图谱和基于文本的方法,克服了以往基于知识图谱的推荐系统忽略描述信息的局限性。

亮点

DEKR的亮点主要包括:

1.构造了一个描述增强的机器学习知识图谱,它不仅考虑了机器学习实体之间的丰富联系,还考虑了查询实体(即数据集和方法)的描述信息;2.提出了DEKR模型,该模型结合了基于知识图谱和基于文本的方法,克服了传统的基于知识图谱的方法忽略实体描述信息的局限性;

概念及模型

DEKR有两个关键组成部分:

1.图神经网络,它通过允许两个种子(即数据集和方法)实体在知识图上传播来探索高阶连接性,用邻居的信息丰富它们自己的表示2.基于深层文本的协同过滤网络,通过从描述特征中捕捉线性和非线性交互,得出基于文本的交互概率。

模型整体框架如下:

e289e9cf480d810abb0d20623a544cf6.png

•Knowledge Graph Neural Network (KGNN)

基于采样的邻点N(e) 以及相应的注意力权重 π ,可以计算一个加权和从而获得实体邻点的聚合表示,将其用于增强实体本身的表示,其计算如下:

70d54839a4716359c920033b4aba5c91.png

并相应得到了节点 𝑒 通过将其邻点的表示聚合为自己的one-hop表示公式以及multi-hop表示公式,如下:

484d98049ff1694d197122494a7347d5.png

9d18a6355d99a2175a480f1b3130e148.png

在分别在数据集端和方法端传播h hop后,最终表示  和  已将各自邻节点的信息合并到h-hop范围内。通过对  和  进行点积,根据图结构推导出相互作用概率,如下所示

b90b72e991ea16c39c91cb9a12340e29.png

•Text-based Collaborative Filtering (TextCF)

TextCF模型结构如下图所示:

77e0fc73dd5ea7386d19482cf522b4b0.png

其中通过嵌入得到  和  。数据集和方法的描述特征对应的线性交互公式如下:

d8df10f513a08add227c7a81089738b4.png

非线性交互公式如下:

5ede97ec1be13bbe8479f1fc87003baa.png

最终输出:

30e4740640e2115eb58ce93de5672941.png

•组合KGNN和TextCF

KGNN和TextCF分别学习了数据集和方法在结构和描述特征方面的嵌入表示。我们让模型分别学习和优化这两种表示,然后结合它们预测的概率,生成最终的交互概率,如下所示:

949945769ff4d0dd6dea50e91b9fd8f1.png

理论分析

实验

作者从开放学术平台收集数据,搜索与机器学习(ML)相关的数据集、方法及其属性,以及其他相关实体进行实验。首先是有效性实验。

b2504079203c843677ad69c3a875fffd.png

DEKR在CTR预测任务上的表现优于所有baseline模型,平均提高了15%以上。此外,DEKR在top-𝐾 任务上也表现出色。同时几乎所有基于知识图谱的模型都在推荐任务上优于传统模型,这表明在知识图谱中引入丰富的关系和信息极大地提高了推荐的有效性。

此外选择使用不同的模型组成部分进行实验,实验结果如下图:

6e543053ff44baf2923e10e077897696.png

可以看出,不使用知识图谱的结构或描述性信息的性能不如同时使用两者。此外,仅在知识图的一端使用边信息比在两端使用边信息弱,这表明引入更多边信息将提供更多特征表征。

表4总结了不同组合方法的实验结果,验证了相比之下本文的组合方法最优。此外,求和设置的性能弱于串联设置。一个可能的原因是,两个特征表示有异构性,它们属于不同的语义空间。

58910e6a5c60494cc031d3e0b706e8de.png

最后实验可视化了描述性信息的引入如何有助于推荐系统的性能。

9f682e85282c36dbcf9a1051595a9713.png

总结

在本文中,我们提出了一个基于描述增强知识图谱的机器学习方法推荐系统DEKR,它可以为给定的机器学习数据集推荐合适的方法。我们构建了一个描述增强的机器学习知识图谱,定义了图谱中的主要实体和关系,并添加了与推荐任务相关的两个核心实体(即数据集和方法)的描述信息。DEKR有两个关键组成部分:

1.KGNN,它从数据集和方法端开始,在知识图谱上传播,扩展到高阶邻域,然后丰富其自身的表示;2.TextCF,捕捉文本特征的线性和非线性交互。通过结合这两种信息来源,DEKR能够提出高度准确和高效的建议。在真实数据集上进行的大量实验证明了模型的有效性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

ea96c4563ff44e671aaa6ab85f09ff4d.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Meta AI 发布 data2vec!统一模态的新里程碑!

文 | ZenMoore编 | 小轶如果让大家举一个最成功的自监督模型的例子,尤其对于各位 NLPer,肯定毫不犹豫地祭出我大 BERT. 想当年 BERT 打了一个名叫 MLM (Masked Language Model) 的响指,直接成了 NLP 灭霸。视觉界、语音界闻声而来&#xff0c…

LeetCode 946. 验证栈序列(栈)

1. 题目 给定 pushed 和 popped 两个序列,每个序列中的 值都不重复,只有当它们可能是在最初空栈上进行的推入 push 和弹出 pop 操作序列的结果时,返回 true;否则,返回 false 。 示例 1: 输入:…

Spring Cloud Stream消费失败后的处理策略(一):自动重试

之前写了几篇关于Spring Cloud Stream使用中的常见问题,比如: 如何处理消息重复消费如何消费自己生产的消息 下面几天就集中来详细聊聊,当消息消费失败之后该如何处理的几种方式。不过不论哪种方式,都需要与具体业务结合&#xf…

会议交流 | DataFunSummit 2022:图机器学习在线峰会

深度学习模型是当今人工智能研究的核心。众所周知,对欧几里得数据(例如图像)和序列数据(例如文本)具有颠覆性学习能力的深度学习技术不能直接适用于图结构数据。这种差距推动了图深度学习研究的浪潮,在学术…

专访邱锡鹏:人工智能开源社区的「先行者」

文 | 刘冰一、Echo源 | 极市平台邱锡鹏,复旦大学理学学士和博士。任职复旦大学计算机科学技术学院教授,博导。发表 CCF A/B 类论文 70 余篇,获得 ACL 2017 杰出论文奖(CCF A类)、CCL 2019 最佳论文奖。出版开源专著《神…

Spring Cloud Stream如何消费自己生产的消息

在上一篇《Spring Cloud Stream如何处理消息重复消费》中,我们通过消费组的配置解决了多实例部署情况下消息重复消费这一入门时的常见问题。本文将继续说说在另外一个被经常问到的问题:如果微服务生产的消息自己也想要消费一份,应该如何实现呢…

LeetCode 400. 第N个数字(数学)

1. 题目 在无限的整数序列 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, …中找到第 n 个数字。 注意: n 是正数且在32为整形范围内 ( n < 2^31)。 示例 1: 输入: 3 输出: 3示例 2: 输入: 11 输出: 0 说明: 第11个数字在序列 1, 2, 3, 4, 5, 6, 7, 8, 9, 1--0--, 11, ... 里是0&a…

图谱实战 | 开源知识图谱融合工具剖析:Dedupe与OpenEA工具实现思想、关键环节与实操分析...

转载公众号 | 老刘说NLP实体对齐旨在发现不同知识图谱中的共指实体&#xff0c;如百度百科的360与Wikipedia中的360 qihoo。实体对齐是知识融合的重要任务&#xff0c;通过实体对齐集成多源知识图谱可以为下游任务提供更加全面的知识表示。实际上&#xff0c;实体对齐本质上就是…

算法岗SSP offer收割指南!

文 | 林小平源 | 知乎前序在本文开始以前&#xff0c;林小平首先需要声明的是这篇超详细面经并不是笔者本人的求职笔记&#xff0c;它是笔者学校隔壁实验室22届毕业学弟的面试心路历程和经验心得。由于笔者和这位学弟经常讨论校招求职和职业发展的问题&#xff0c;并且在秋招以…

Spring Cloud Stream如何处理消息重复消费

最近收到好几个类似的问题&#xff1a;使用Spring Cloud Stream操作RabbitMQ或Kafka的时候&#xff0c;出现消息重复消费的问题。通过沟通与排查下来主要还是用户对消费组的认识不够。其实&#xff0c;在之前的博文以及《Spring Cloud微服务实战》一书中都有提到关于消费组的概…

LeetCode 481. 神奇字符串(找规律)

1. 题目 神奇的字符串 S 只包含 ‘1’ 和 ‘2’&#xff0c;并遵守以下规则&#xff1a; 字符串 S 是神奇的&#xff0c;因为串联字符 ‘1’ 和 ‘2’ 的连续出现次数会生成字符串 S 本身。 字符串 S 的前几个元素如下&#xff1a;S “1221121221221121122 …” 如果我们将…

图谱实战 | ​鲍捷:知识图谱技术在金融领域的分析和应用

转载公众号 | DataFunSummit分享嘉宾&#xff1a;鲍捷博士 文因互联编辑整理&#xff1a;松烨 博瑜科技出品平台&#xff1a;DataFunTalk导读&#xff1a;知识图谱标准件已经全面赋能主流金融场景&#xff0c;经历了7年时间的发展&#xff0c;在金融监管、银行、资管、证券等领…

珍爱生命,远离大厂政治斗争

本文授权转载自公众号“算法圈的小破事”&#xff0c;点击以上卡片进行关注大家好&#xff0c;我是在互联网危险边缘疯狂试探的皮皮虾&#xff0c;今天跟大家分享一个关于大厂政治斗争的故事。有人可能觉得&#xff0c;政治斗争那都是大佬之间的事情&#xff0c;跟我们江湖虾米…

Spring Cloud Finchley版中Consul多实例注册的问题处理

由于Spring Cloud对Etcd的支持一直没能从孵化器中出来&#xff0c;所以目前来说大多用户还在使用Eureka和Consul&#xff0c;之前又因为Eureka 2.0不在开源的消息&#xff0c;外加一些博眼球的标题党媒体使得Eureka的用户有所减少&#xff0c;所以&#xff0c;相信在选择Spring…

论文浅尝 | Continual Learning for Named Entity Recognition

笔记整理&#xff1a;李淑怡&#xff0c;天津大学硕士动机在许多真实任务下&#xff0c;常常需要引入新的实体类型&#xff0c;因此需要重新训练命名实体识别模型。当因为存储或安全问题限制对原始数据的访问时&#xff0c;那么为新实体类型重新标注原始数据的成本将会是高昂的…

Allen AI提出MERLOT,视频理解领域新SOTA!

文 | Yimin_饭煲2021年&#xff0c;多模态领域大概是人工智能研究者们关注者最多的一个领域了。随着各种模态数据集的增长和算力的发展&#xff0c;研究者们开始不断地尝试在一个模型中融合来自各个模态的信息。而在多模态领域的研究中&#xff0c;和视频相关的任务被认为是最复…

基于HMM的中文词性标注 POSTagging

文章目录1. 词性标注1.1 概念1.2 任务1.3 预处理1.4 初步统计预览2. 最大概率模型2.1 训练2.2 预测2.3 结果评估2.4 结果可视化3. 二元隐马尔科夫BiHMM模型3.1 训练3.2 预测3.3 结果评估3.4 结果可视化4. 结果讨论思考本文的代码是在徐老师的代码基础上&#xff0c;自己加了些注…

图谱实战 | 58同城周超:基于招聘场景下的知识图谱构建及应用

转载公众号 | DataFunSummit分享嘉宾&#xff1a;周超 58同城 NLP资深算法工程师编辑整理&#xff1a;吴祺尧 加州大学圣地亚哥分校出品平台&#xff1a;DataFunTalk导读&#xff1a;知识图谱作为一种富信息工程&#xff0c;已经深入到各行各业中&#xff0c;也为产业效率的提升…

2022年薪百万赛道:高性能神经网络与AI芯片应用

随着大数据的发展&#xff0c;计算机芯片算力的提升&#xff0c;人工智能近两年迎来了新一轮的爆发。而人工智能实现超级算力的核心就是AI芯片。AI芯片也被称为人工智能加速器&#xff0c;即专门用于处理人工智能应用中的大量计算任务的模块。2020年我国人工智能芯片市场规模约…

API网关 Zuul1.0 和 2.0 我们该如何选择?

介绍 在今年5月中&#xff0c;Netflix终于开源了它的支持异步调用模式的Zuul网关2.0版本&#xff0c;真可谓千呼万唤始出来。从Netflix的官方博文[附录1]中&#xff0c;我们获得的信息也比较令人振奋&#xff1a; The Cloud Gateway team at Netflix runs and operates more t…