Analysis of Negative Sampling Methods for Knowledge Graph Embedding

摘要

负采样是一种用于加速知识图嵌入学习和最大化嵌入模型在链接预测和实体解析等支持任务中的有效性的方法。负采样对于提高准确性、减少偏差、提高效率和改善代表性至关重要。本文仔细研究了在基准数据集Fb15k上,张量分解和平移嵌入模型的两种基本负采样技术增加每正负采样数量的后果。对于均匀抽样和伯努利抽样,值得注意的是,基于每阳性负的数量增加而显示性能变化的模式。

我们的目标是确定不同的负采样参数对张量分解模型和平移模型的结果

II. RELATED WORK

B. Negative Sampling

负样本在kg机器学习模型的训练中发挥着至关重要的作用,有助于这些模型的准确性、效率和可扩展性。通过产生高质量的负样本,可以提高对模型性能的评估,这也可以作为更好的训练数据的基础,并且可以提高链接预测和实体解析等任务的性能。负抽样是优化KG训练中机器学习模型效率的一种有价值的技术,存在不同的负抽样技术,可以与千克训练模型配对。下面列出了一些有助于开辟另一条道路的办法:

KG中的均匀抽样[4]是指从KG中以等概率随机选择三元组的过程,不偏向于特定的实体或关系。为了确保用于训练的数据反映了整个KG,而不是偏向于任何特定区域,这种采样技术经常用于KGE模型训练。均匀抽样是直接和有效的,但可能不能像更复杂的抽样方法那样有效地捕捉到KG的潜在结构和模式。

“Translating embeddings for modeling multi-relational data

KG中的伯努利抽样[5]是指以与KG中关系的频率成比例的概率从KG中随机选择三元组的过程。这种抽样方法旨在解决KG中数据不平衡的问题,其中一些关系比其他关系更频繁。通过对频率较低的关系进行更多的三元组采样,模型可以更好地学习这些关系的表示。伯努利采样计算效率高,但可能需要事先了解相关频率,这可能并不总是可用的。

Knowledge graph embedding by translating on hyperplanes

在KG中,NSCaching[9]指的是缓存实体或关系的最近邻居,以加快相似性分数或预测的计算。这种缓存方法涉及在内存中存储每个实体或关系的k个最近邻居,这可以用于快速计算出相似性得分或新查询的预测,而无需执行昂贵的计算。NSCaching是一种常用的加速KGE模型推理的技术,可以显著减少进行预测所需的时间。

NSCACHING: Simple and efficient negative sampling for knowledge graph embedding

IGAN (inductivegenerative Adversarial Networks) [7] KG中的负采样技术是指使用生成式对抗网络(Generative Adversarial network, GAN)生成负样本用于训练的过程。GAN通过学习负三元组在KG中的分布来训练生成似是而非的负样本,而鉴别器网络被训练来区分真实样本和生成的负样本。生成的负样本用于训练KGE模型,该模型学习区分正负三元组。IGAN负抽样是解决KGE中数据稀疏性和类不平衡问题的有效方法,可以增强KGE模型的执行力。

Incorporating gan for negative sampling in knowledge representation learning

KBGAN (Knowledge Base Generative Adversarial Network,知识库生成对抗网络)[8]是一个术语,用于描述为使用GAN训练KGE模型而创建负样本的过程。当鉴别器网络被训练来区分真实和生成的负样本时,GAN被训练来通过学习负三元组在KG中的分布来产生可信的负样本。利用生成的负样本和二元交叉熵损失函数对KGE模型进行训练。KBGAN负采样可以通过解决图类不平衡和数据稀疏性问题来提高KGE模型的性能。

KBGAN: Adversarial learning for knowledge graph embeddings

KG中的结构感知负抽样(Structure-aware negative sampling, SANS)[10]技术是指考虑到KG的结构信息,生成负样本用于训练KGE模型的过程。该技术涉及对违反KG结构约束的负三元组进行采样,例如传递性和对称性。通过结合这种结构信息,模型可以学习更有效地区分真假三元组或事实。结构感知负抽样是解决图中数据稀疏和类不平衡问题的一种有效方法,可以优化KGE模型的效率.

Structure aware negative sampling in knowledge graphs

8888888888888888888888888888888888888888888888888888888888888888888888888888

IV. RESULTS AND DISCUSSION

表III显示了使用均匀采样和伯努利采样对每一个正的1、5、10、15个负的张量分解和平动模型的研究。随着负号值的增加,可以明显看出平移模型中的TransE和TransR以及张量分解模型中的ComplEx在性能上都有明显的提高。显示出性能的明显提高,因为每一个阳性的阴性数量从1增加到15。其他人也表现出一些差异,尽管有些低调。均匀抽样和伯努利抽样都允许对此进行类似的观察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/768967.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】数组(一维、二维数组的简单介绍)

数组(Array) 数组概念 数组是一组相同数据类型元素的集合,属于一种简单的数据结构,从中可以得到三个有效信息 数组元素是同一数据类型的变量数组存放一个或者多个数据,但是数组元素个数不能为0数组中各元素可独立作为…

unity 动态获取Animator 状态机中某个动画片段的播放速度(获取到速度来计算 播放时长)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言获取某个动画片段的播放速度,并且得到播放时长1.获取速度2.计算时长 总结 前言 这个功能主要是因为 每个动画片段的播放速度不一样,需要…

【Web APIs】DOM节点

目录 1.节点操作 1.1DOM节点 1.2查找节点 1.2.1父节点查找 1.2.2子节点查找 1.2.3兄弟节点查找 1.3增加节点 1.4克隆节点 1.5删除节点 2.时间对象 2.1实例化 2.2时间对象方法 2.3时间戳 3.重绘和回流 1.节点操作 1.1DOM节点 DOM节点:DOM树中的每一个…

CHAT~(持续更新)

CHAT(持续更新) 实现一个ChatGPT创建API设计页面布局业务操作技术架构 编码其他 实现一个ChatGPT 创建API 最简单也最需要信息的一步 继续往下做的前提 此处省略,想要获取接口创建方式联系 设计 页面布局 按照官网布局 业务操作 注册登…

绝地求生:PUBG七周年庆典开启!参与周年话题投稿赢丰厚奖励

为庆祝七周年,闲游盒PUBG官方准备了众多活动与奖励,一起在庆典中创造难忘的回忆吧!七周年庆典期间游玩PUBG,参与 #乐在7中鸡味无穷# 周年话题投稿,即有机会赢取魔力甜心萨莉套装 2奖励。 参与方式 在小黑盒PUBG社区中…

贪心算法相关题目

文章目录 1. 什么是贪心?2. 分发饼干3. 摆动序列4. 最大子数组和5. 买卖股票的最佳时机 II6. 跳跃游戏7. 跳跃游戏 II8.K 次取反后最大化的数组和9.加油站10.分发糖果11.柠檬水找零 1. 什么是贪心? 贪心的本质是选择每一阶段的局部最优,从而…

Python数据分析一

一、Python之输出函数和输入函数 Python中的输出函数和输入函数分别是print()和input()。 输出函数 print() print()函数用于将数据打印到标准输出(通常是控制台),以便用户查看。它可以接受一个或多个参数,并在打印时使用空格分隔…

第1篇:Mysql数据库表结构导出字段到Excel(一个sheet中)

package com.xx.util;import org.apache.poi.ss.usermodel.*; import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.sql.*; import java.io.*;public class DatabaseToExcel {public static void main(String[] args) throws Exception {// 数据库连接配置String u…

Less-1(sqlmap手工注入攻击)--sqli

第一步:判断他是什么sql注入? 1 报错 1 and 12 -- 错误结果(--表示注释符) 1 and 11 -- 正确结果 第二步:判断返回字段数 ?id1 order by 3-- 正确显示结果 ?id1 order by 4--当列数为4时开始报错,所以只有三列 注&#xf…

机器学习核心原理

机器学习的核心原理是利用数据和数学模型来训练计算机系统,使其能够从数据中学习并进行预测、分类、识别、聚类等任务。以下是机器学习的核心原理: 1. **数据表示**:机器学习的基础是数据,而数据的表示对于机器学习任务至关重要。…

github的2FA问题

文章目录 问题描述方式一:chrome浏览器插件 问题描述 方式一:chrome浏览器插件 1、 第一步 安装插件:Authenticator 2、 第二步 打开github验证界面,并点击该插件

15 网络管理与网络安全(3)

1.入侵检测系统的基本功能 ① 监控、分析用户和系统的行为;② 检查系统的配置和漏洞;③ 评估重要的系统和数据文件的完整性;④ 对异常行为的统计分析,识别攻击类型,并向网络管理入员报警;⑤ 对操作系统进行…

关于分布式系统设计的个人看法和经验

1.接口要保证幂等 2.客户端要设置超时时间和兜底措施 3.服务端调用三方要设置超时和重试机制以及兜底 4.服务端要有熔断和降级以及限流机制 5.避免使用大事务 6.对热点数据使用缓存(浏览器缓存/客户端缓存/分布式缓存/应用级缓存) 7.对大表数据考虑分库分表 8.对于需要进行多表…

蓝桥杯-模拟-航班时间

题目 思路 去时到达外地的时间-去时离开本地的时间 时区差时飞行时间 回时到达本地的时间-回时离开外地的时间 -时区差时飞行时间 故二者加起来即可得到飞行时间 代码 # 去时到达外地的时间-去时离开本地的时间 时区差时飞行时间 # 回时到达本地的时间-回时离开外地的时间 -…

突破编程_C++_C++11新特性(lambda表达式的实战应用)

1 Lambda 表达式的调用与操作 1.1 Lambda 表达式作为函数参数传递 Lambda 表达式可以像普通函数或函数对象一样被传递作为函数的参数。这种灵活性使得 Lambda 表达式在 C 的算法库和函数式编程风格中特别有用。当需要将一个小的、匿名的函数作为参数传递给另一个函数时&#…

时间对比投资:衡量5天与10天六西格玛绿带培训的价值

六西格玛绿带培训专为希望提高其业务流程改进技能的专业人员设计。绿带培训通常涵盖六西格玛的基础知识、DMAIC(定义、测量、分析、改进、控制)方法论、以及各种质量管理工具和技巧。绿带受训者通常在他们的工作职责中负责领导小型项目或作为黑带项目团队的成员,下面…

小兴教你做平衡小车-蓝牙模块JDY-31介绍

文章目录 1 前言2 模块资料下载3 模块介绍3.1 模块特点3.2 模块相关指令介绍3.3 指令学习3.3.1 查看版本号3.3.2 软复位3.3.3 查看模块的波特率3.3.4 修改模块的波特率3.3.5 蓝牙配对密码查看3.3.6 修改蓝牙配对密码3.3.7 广播名查询3.3.8 广播名修改3.3.7 恢复出厂配置3.3.8 串…

游戏学(Ludology)探秘

游戏学(Ludology)探秘 李升伟 李昱均 常秀琼 1. 游戏学:概念 Ludology(游戏学)是研究游戏设计、游戏行为和游戏文化的一个领域。它涉及对游戏结构、规则、玩法、设计原则和游戏体验的研究,旨在深入理解…

人工智能的春天:改变已然发生

以下文章来源:青岛日报 某种意义上说,这个春天属于人工智能(AI)。 继一年多前ChatGPT惊艳全球后,OpenAI再次放出“王炸”成果——视频大模型Sora;苹果放弃布局多年的造车计划,将ALL in AI&#…

MySQL数据库的事务

目录 1、事务的概念 2、事务的ACID特点 2.1 原子性 2.2 一致性 2.3 隔离性 2.3.1MySQL事务隔离级别 2.3.2事务隔离级别的作用范围 2.3.3 查询事务的隔离级别 2.3.4 设置事务的隔离级别 ​编辑 2.4 持久性 3、事务控制语句 3.1测试begin和commit(开始…