论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。

5939afbebfa5e660f20fde8bd9c88268.png

Motivation

为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨大的训练成本和存储空间。现在一般有两种方法解决这一问题,第一种是直接训练低维的KGE(例如8维或32维),但是这种方式的缺陷是不能利用高维KGE中高精度知识;另一种解决方法是将预训练的高维KGE压缩到较低的维度,这种方法的缺点是很高的预训练成本,并且在KG变化时不能继续训练。

那么,我们能否在避免训练高维模型的同时,将高精度的知识转移到低维模型中?本文提出了一种新的面向低维知识图嵌入的多教师知识蒸馏方法MulDE来解决这个问题。选择使用多个低维度(64维)教师有以下3个好处:

1.降低预训练成本;2.能保证教师的性能;3.提升蒸馏效果。

方法

8ac0d894b8b44356cd486b030e1f4f3b.png

整个模型框架分为3个部分:

Junior:目标模型。它会挑选分数较高的K个候选实体,并把这些实体及它们的得分送到Teachers。

Teachers:一个Teacher团队,针对Junior挑选的K个实体,生成多个分数序列。在整个训练过程中,Teachers不会更新。

Senior:它将Teachers的多个评分序列整合为最终的软标签,然后返回给Junior。

Junior:

目标模型。它会挑选分数较高的K个候选实体,并把这些实体及它们的得分送到Teachers。

具体来说,给定一个e-r查询,Junior会评估整个实体集中的所有实体的得分,最后选择出得分最高的前K个实体:

b7766172d403d9cc089ee8a046f36ba0.png

它们的得分表示为:

bcc9b7d663637152bb4301e46f56772a.png

这K个实体以及它们的得分会被输出到Teachers中,Senior会基于Teachers的输出给出Junior训练的soft label。因此,Junior的soft label损失可以表示为:

a89f4fe6b7a4ee0ffe17b3e31f0706ee.png

另外,Junior还受到ground-truth标签(即hard label)的监督,Junior的hard label损失可以表示为:

8d3679cb7e216bc89a1ef0e42345f587.png

Junior的最终损失为soft label损失和hard label损失的和:

173af48e734f24a07451987cc2bc9e2b.png

Teachers:

一个Teacher团队,针对Junior挑选的K个实体,生成多个分数序列。在整个训练过程中,Teachers不会更新。假设有m个Teacher,则Teachers表示为:

8718d042eac275723a7d03688416a71c.png

本文作者选择了以下4个模型组成Teachers:

1aa4e72c9e6f11e6c3068a5eaad5654a.png

Teachers输出m个分数序列:

c25fe7d8dae71aafa5af857d56c03755.png

每个序列的长度为K,对应于从Junior接收的K个候选实体。

Senior:

它将Teachers的多个评分序列e1564efe767b31dea30fad14e9a2a290.png整合为最终的软标签,然后返回给Junior。标签整合过程中,作者提出了两种机制:A.关系特定的放缩机制 B.对比注意机制

A. 关系特定的放缩机制

考虑到一个Teacher对不同的关系有不同的关注度,每个Teacher都有自己擅长的关系,作者设置了一个关系矩阵:

8be2285af4e2118abac165afdb541bdd.png

这个矩阵行代表不同的关系,列代表不同的Teacher。每个Teacher的分数序列都会通过这个关系矩阵进行放缩:

d1075d278c440adda89eb5841e6d87e0.png

而这个关系矩阵的优化也是通过真实one-hot标签进行监督:

096d0cdbf6b7143bc3ae6d36a1c835a4.png

B. 对比注意机制

这个机制的提出是考虑到,Teachers是预训练好的,而Junior是随机初始化的,Senior通过整合Teachers输出的分数序列得到的soft label可能和Junior的输出差距过大,不利于训练收敛。因此希望在训练的初始阶段,Senior生成的soft label能比较接近Junior的输出。Senior会对比和评价Junior输出序列和每个教师序列之间的相似性:

6ea7a65a1845eb73cffb3c00c4f1022c.png

而相似度更高的Teacher分数序列会在整合过程中拥有更高的权重:

44ca41219d4d9e6988d5f8604186068a.png

而随着训练时间t的增加,这个权重的影响逐渐减小,各Teacher的贡献趋于相同。

整个模型的算法流程如下:

0b5a7c2dfa6a0825a6385d43d628f0e0.png

实验

作者在两个数据集WN18RR和FB15K-237上进行了实验,对比了不同高维和低维KGE模型。实验结果如下:

521f7e4b124b50d5e6d6dffecf7afee0.png

8af04eb7d18d1cdd609b922be7916aa9.png

4d76574f57bf8c73b3c3bca60299766d.png

f4b19142614bc29047234d271a1677fb.png

a7387cdc5764c7fea6ded5d69576832f.png

从实验结果中可以看出MulDE相较于现有的KGE方法在链接预测上有明显提升,并且有较快的训练速度。

欢迎有兴趣的同学阅读原文。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

7606ad79d442cd406c735817f76607e8.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478022.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 453. 最小移动次数使数组元素相等(数学)

1. 题目 给定一个长度为 n 的非空整数数组,找到让数组所有元素相等的最小移动次数。每次移动可以使 n - 1 个元素增加 1。 示例: 输入: [1,2,3]输出: 3 解释: 只需要3次移动(注意每次移动会增加两个元素的值):[1,2,3] > [2…

性能优化模式

摘要 性能优化涉及面很广。一般而言,性能优化指降低响应时间和提高系统吞吐量两个方面,但在流量高峰时候,性能问题往往会表现为服务可用性下降,所以性能优化也可以包括提高服务可用性。在某些情况下,降低响应时间、提高…

征稿 | 国际KG大会 IJCKG 2021专辑征文

国际知识图谱联合会议(International Joint Conference on Knowledge Graphs (IJCKG 2021, 与ACM/SIGAI联合办会)今年将于12月6日-8日在线召开。Data Intelligence今年被EI数据库收录后,有幸成为大会推荐期刊,大会优秀论文将推荐在…

200字带你看完一本书,GPT-3已经会给长篇小说写摘要了

文 | 博雯源 | 量子位现在,AI能帮你200字看完一段12万词的长篇小说了!比如这样一段121567词的《傲慢与偏见》原文:▲图源OpenAI官网AI分四个阶段来总结:先把原文总结成276个摘要(24796词),然后进…

LeetCode 1252. 奇数值单元格的数目

1. 题目 给你一个 n 行 m 列的矩阵,最开始的时候,每个单元格中的值都是 0。 另有一个索引数组 indices,indices[i] [ri, ci] 中的 ri 和 ci 分别表示指定的行和列(从 0 开始编号)。 你需要将每对 [ri, ci] 指定的行…

Google Research新成果,让表格理解和检索更上一层楼!

文 | 舞风小兔编 | 智商掉了一地如何更好地理解自然语言查询问题与表格信息?Google Research给出了一个改进版Transformer,一起来看看吧!表格以结构化方式存储信息,广泛地存在于web世界中。表格最为常见的一种用法就是人们查询其中…

论文浅尝 | 用于视觉推理的显式知识集成

论文笔记整理:刘克欣,天津大学硕士链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf动机现有的可解释的和显式的视觉推理方法仅执行基于视觉证…

美团O2O排序解决方案——线下篇

背景 针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征…

LeetCode 401. 二进制手表

1. 题目 二进制手表顶部有 4 个 LED 代表小时(0-11),底部的 6 个 LED 代表分钟(0-59)。 每个 LED 代表一个 0 或 1,最低位在右侧。 例如,上面的二进制手表读取 “3:25”。 给定一个非负整数 …

EMNLP'21 | 让压缩语言模型自动搜索最优结构!

文 | Cheney编 | 智商掉了一地既让模型跑得快又好,又要空间占用少,真的有这样效果爆表的操作存在吗?在当前疫情反复的情况下,大家平时出门用健康宝刷脸的频率变得越来越高。如果每次人脸识别都需要等很久的话,那也太让…

直播分享丨前沿技术讲习班:知识图谱前沿技术与应用(CIPS ATT27)

本文转载自公众号:智源社区助手。作为大数据时代重要的知识表示方式,知识图谱是人工智能领域构建和应用知识的新阶段,它能够更好地实现大规模数据的认知与推理。同时,知识图谱和深度学习相互协作,是实现具有强鲁棒性、…

美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家,而搜索在其中起着非常重要的作用。随着业务的发展,美团的商家和团购数正在飞速增长。这一背景下,搜索排序的重要性显得更加突出:排序的优化能帮助用户更便捷地找到满足其需求的商家和团购&#xff0…

手把手教你模型选择,模型评估

数据来源是:头条新闻数据,经过处理之后的部分数据如下: 首先通过交叉验证,取选择模型: from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.s…

LeetCode 1030. 距离顺序排列矩阵单元格(排序Lambda表达式BFS)

文章目录1. 题目2. 解题2.1 multimap2.2 Lambda 表达式排序2.3 BFS搜索1. 题目 给出 R 行 C 列的矩阵&#xff0c;其中的单元格的整数坐标为 (r, c)&#xff0c;满足 0 < r < R 且 0 < c < C。 另外&#xff0c;我们在该矩阵中给出了一个坐标为 (r0, c0) 的单元格…

干货 | 带你理解对比学习损失函数的性质以及温度系数的作用

文 | Feng源 | 对白的算法屋很多小伙伴都了解对比学习&#xff0c;但要说温度系数的作用可能就不太清楚了。卷友们好&#xff0c;我是对白。对比学习中的温度系数是一个神秘的参数&#xff0c;大部分论文都默认采用小的温度系数来进行自监督对比学习&#xff08;例如0.07&#…

论文浅尝 | Data Intelligence第4期正式上线啦

本文转载自公众号&#xff1a;数据智能英文刊各位关注DI期刊的专家学者和业界同仁&#xff1a;Data Intelligence第4期正式上线啦&#xff01;本期共出版2篇研究性论文&#xff0c;5篇数据论文&#xff0c;1篇实践类论文。点击每篇文章标题下方的二维码可直达论文全文页面。敬请…

细说ReactiveCocoa的冷信号与热信号(三):怎么处理冷信号与热信号

第一篇文章中我们介绍了冷信号与热信号的概念&#xff0c;前一篇文章我们也讨论了为什么要区分冷信号与热信号&#xff0c;下面我会先为大家揭晓热信号的本质&#xff0c;再给出冷信号转换成热信号的方法。 揭示热信号的本质 在ReactiveCocoa中&#xff0c;究竟什么才是热信号呢…

LeetCode 1260. 二维网格迁移(二维转一维)

1. 题目 给你一个 n 行 m 列的二维网格 grid 和一个整数 k。你需要将 grid 迁移 k 次。 每次「迁移」操作将会引发下述活动&#xff1a; 位于 grid[i][j] 的元素将会移动到 grid[i][j 1]。 位于 grid[i][m - 1] 的元素将会移动到 grid[i 1][0]。 位于 grid[n - 1][m - 1] …

困惑度、主题一致性,lda模型找出主题相关词

困惑度perplexity&#xff1a;句子的概率的倒数。如果句子的概率越大&#xff0c;说明这句话越符合人话的规律&#xff0c;即p&#xff08;句子&#xff09;&#xff0c;pp困惑度越小。模型对该句子就越不困惑。 通俗一点解释下就是&#xff0c;困惑度表示的对于一篇文章来说…

patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了

文 | 机器之心编辑部源 | 机器之心ViT&#xff08;Vision Transformer&#xff09;等视觉模型的强大性能&#xff0c;是来自于 Transformer&#xff0c;还是被忽略的 patch&#xff1f;有研究者提出了简单 ConvMixer 模型进行证明&#xff0c;直接将 patch 作为输入&#xff0c…