论文浅尝 | 知识表示、多模态融合、搜索匹配三大方向探索——360人工智能研究院知识图谱算法团队...

转载公众号 | 老刘说NLP


当前以促进技术发展、提升模型指标,探究模型天花板的竞赛越来越多,也逐步成为各大研究机构、互联网大厂竞相角逐的主战场。

自2022年以来,在组员的共同努力下,团队(360人工智能研究院知识图谱算法团队),陆续在知识表示、多模态知识融合、知识匹配三个方向上进行探索,并参加相关比赛,取得了一定的成绩。

其中:

知识表示方向上,提出StarGraph+TripleRE知识表示模型,当前结果在OGB-wikikg2榜位列第一名。可用于图谱表征、实体链接预测、知识补全等潜在应用场景。

多模态知识融合上,采用基于交互编码与蒸馏的多模态实体对齐模型,在ccks2022基于知识图谱的商品同款挖掘评测中获得第二名。该模型可用于图谱融合对齐场景。

知识匹配方向上,采用混合对比学习与课程式难负例采样的搜索匹配模型,在2022问天引擎电商搜索算法赛获得第二名。该模型可用关于图谱推荐、实体匹配等场景。

本文是对这三个竞赛的总结性回顾,供大家一起参考。

一、OGB-wikikg2实体链接预测任务

1、任务描述

就OGB评测而言,其包括了面向节点属性补全的Node Property Prediction、预测边缘(节点对)属性的Link Property Prediction以及面向整个图或子图的属性预测的Graph Property Prediction任务。

ogbl-wikikg2数据集是从维基数据知识库中提取的知识图谱,包含一个三元组(head、relation、tail),捕捉了世界实体之间的不同类型的关系,例如(加拿大、公民、辛顿)。

通过检索维基数据中的所有关系语句,并过滤掉稀有实体,形成的KG包含2,500,604个实体和535种关系类型。

该任务是预测新三元组,即给定一组训练三元组,预测一组新的测试三元组,也就是对于每个测试三重(head、relation、tail),要求模型从(head、relation)预测tail实体。

通过用随机采样的1000个负实体(head500个,tail500个)替换其head或tail来生成每个测试三元组,并确保由此产生的三元组不会出现在原始KG中,目标是对真实head(或tail)实体进行高于负实体的排名。

2、所用模型

去年年末,由360提出的TripleRE,全名Knowledge Graph Embeddings Via Triple Relation Vectors,直译过来就是通过三份关系向量进行知识图谱嵌入,创新的将TransE与pairRE进行融合。

52145c013542a0210c2837e6f05aa9da.png

1)模型示意图

PairRE模型,将头实体和尾实体分别做投影,得到一个向量表示,可以有效的建模对称性关系。而是否可以将TransE与它进行融合呢。

带着这种思想,我们提出了tripleRE,在原有2段关系向量的基础上,加入一个中间翻译向量,形成三段。

我们可以看到的是,中间翻译向量为0的时候,也就等同于PairRE。

2、score function公式

TripleRE共设计了三个score-function,其中第三个版本中,在InterHT的启发下, 我们发现实体的转换形成可以学到更多的实体信息,因此我们尝试在TripleRE中加入基于实体的转换表示,并将实体分为三个部分, 即h1, h2, h3和t1, t2, t3。

5b87f6f97a8b01318f0d29218d32a374.png

而其中的nodepiece由于采样方法的局限性,并不能有效的区分实体之间的差异性,所以我们在今年5月份的版本中,优化nodepiece的采样方式,提出StarGraph+TripleRE知识表示模型,MRR提升了3-4个点,当前结果在OGB-wikikg2榜位列第一名。

3、最终成绩:

1246699644d6390b24e6303eb0d2d3a5.png

地址:https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2

二、ccks2022基于知识图谱的商品同款挖掘评测

1、任务描述

同款商品是指商品的重要属性完全相同且客观可比的商品,商品同款识别的主要目的是从海量结构化和无结构化的商品图文数据库中匹配得到同款商品,是构建电商产品关系的一个重要环节。商品同款作为商品知识图谱的重要组成部分,有很多应用场景,如同款商品发现等。

商品定义:商品(即item)通常由多个sku构成,其基础信息包括item级信息(主图、标题、类目、属性及属性值)以及sku级信息(sku图片、sku销售属性),例如:Redmi K50 是一个item(见图1),(Redmi K50,银迹,8GB+128GB)是一个sku。从消费者视角出发,对于手机类目,品牌+型号一致的商品可以认定是同款商品。

3d95bd9a7adccea71fc0e3e1a9ad5fd9.png

但由于商家个性化发布导致商品标准化、结构化程度差,且不同类目下的商品关注的重要属性不一,给细粒度同款对齐带来了困难。且考虑到电商平台商品量级大,现有方法通常基于表示学习的方法,基于商品的基础信息得到商品的向量表示,在此基础上基于向量检索的方式,得到item同款。

本任务聚焦于item同款,并为了简化问题,我们将商品同款识别任务定义为二分类任务,即给定商品对信息,判断是否item同款。

2、所用模型

在具有多模态商品信息的场景中,可以利用其他模态的信息实现更细粒度的同款商品对齐。

为了解决这一问题,我们提出了面向电商领域的基于交互编码与蒸馏的多模态实体对齐模型。

4b0527ee0d82e4594e3ad5d3e7780dda.png

该模型利用商品的图像和文本信息,并使用遮蔽语言模型、图文对比、图文匹配等预训练手段来增强模型对于商品的表征能力。借助领域预训练、递推推理的数据增广和知识蒸馏等方法,使模型效果远好于单模态对齐方案和常规表示学习建模算法。

其中:

702cbb8dbe1f7144031bfcda6b117e5c.png

如上图所示,我们首先基于开源的R2D2模型【360自研多模态模型】,在领域相关的语料上采用不同的策略进行继续预训练,分别得到领域预训练模型R2D2-S和R2D2-P。然后,基于R2D2-P构建交互编码器CrossR2D2,并在训练集上完成训练。最后,使用训练好的CrossR2D2作为教师模型,未经过训练的BiR2D2作为学生模型,进行知识蒸馏。

01b34422efa5ee4b0a8c8d7d1afa48aa.png

其中,继续预训练是使预训练模型适应领域数据的常见手段之一,我们分别采用了遮挡语言模型、图文对比(目标是拉近匹配的文本和图像的同时,拉远不匹配的文本和图像)、以及图文匹配三种损失函数作为模型损失,并采用单商品预训练策略和成对商品预训练策略。

此外,由于交互编码器效果要好于双编码器,我们设计并实现了一种基于R2D2的交互编码器,称为CrossR2D2以及基于R2D2的双编码器,称为BiR2D2。

最后考虑到交互编码器和双编码器之间存在的性能差异,通过知识蒸馏的方式将CrossR2D2中的“知识”迁移至BiR2D2,即教师模型为CrossR2D2,学生模型为BiR2D2。

3、最终成绩

在“CCKS2022 面向数字商务的知识图谱评测任务二:基于知识图谱的商品同款挖掘”竞赛中,复赛F1值为0.8997,排名第二。

563fb2a6029b6c9f42662634d6a0d34a.png

地址:https://tianchi.aliyun.com/competition/entrance/531956/rankingList

三、2022问天引擎电商搜索算法赛

1、任务描述

受疫情催化影响,近一年内全球电商及在线零售行业进入高速发展期。作为线上交易场景的重要购买入口,搜索行为背后是强烈的购买意愿,电商搜索质量的高低将直接决定最终的成交结果,因此在AI时代,如何通过构建智能搜索能力提升线上GMV转化成为了众多电商开发者的重要研究课题。

整个任务是一个匹配问题。

cc412a2b571852e38ec4e7973a87c029.png

2、所用模型

文本匹配是自然语言处理的一项基本任务。针对电商领域搜索语句的简短模糊性、标题的复杂性以及人工标注样本昂贵等问题,我们提出了一种混合对比学习与课程式难负例采样的“向量化召回+精排”两阶段文本匹配模型。

fdc5081e73922349bc2b765de9eedf8b.png

其中:

在向量化召回阶段,给定query,模型在总的doc集合中推理出得分最高的m个doc得到向量化召回结果。
在精排阶段,对于向量化召回得到的m个doc进行排序,得到最终推理结果。

此外,通过借助监督学习数据增广、领域预训练、对比学习、难负例采样等方法辅助排序。

e4482eb5508052cf88663db14984bb97.png

在数据增广上,我们在有监督样本上训练生成模型BART,在无标注样本上进行数据生成,形成监督样本,最终形成增广的有监督数据。

在向量表示上,我们对于输入文本的编码采用BERT的编码形式,将输入的句子,通过分词器按字划分得到序列,将通过look-up表得到由字向量、文本向量、位置向量组成的向量表示为,将向量通过N层Transformer得到文本语义表示向量。

在召回阶段,我们采用SimCSE作为向量化阶段模型,参照对比学习框架和in-batch negative的负样本采样方法,使用交叉熵作为损失函数。

为提高模型的泛化能力,本文在模型训练过程中进一步加入对抗训练。

此外,在向量化召回阶段,模型需要在大规模语料中快速区分出差异样本,对差异样本的辨识精度要求低;而对于精排阶段,模型需要细粒度的区分相似样本,模型需要在小的集合中精准区分出最优样本。

因此,受课程学习思想的启发,本工作将hard negative进行划分,以提升模型的泛化性。

具体的,我们将Knn召回的结果按照相似度得分大小进行排序,从不同排名段的样本抽取形成难负例。经过实验,我们最终将hard negative由简单到困难划分为三个层次:

第一层次,选取相似度得分排名第40-46的样本,此类样本与query匹配度适中;

第二层次,选取相似度得分排名第20-26的样本,此类样本与query的匹配程度高于第一层次;

第三层次,选取相似度得分排名在5-11的样本,此类样本与query的匹配程度极高。

在精排模型训练时,首先采用第一层次的hard negative作为负样本,其次采用第二层次的hard negative作为负样本,最后采用第三层次的hard negative作为负样本。

如此一来,实现让模型从容易的样本开始学习,逐渐进阶到复杂的样本,使模型具有更好的泛化性能,熟练到更好的局部最优解。

3、最终成绩

我们在2022 “阿里灵杰”问天引擎电商搜索算法赛测试集中取得了0.3890的MRR@10值。

1d38799e8ee74636b5dc04b439ec9d32.png

地址:https://tianchi.aliyun.com/competition/entrance/531946/rankingList/1

四、总结

自2022年以来,在组员的共同努力下,我团队(360人工智能研究院知识图谱算法组),陆续在知识表示、多模态知识融合、知识匹配三个方向上进行探索,并参加相关比赛,取得了一定的成绩。

本文是对上述三个竞赛任务的一些技术总结性分享,从中我们可以看到三个典型任务以及可用的技术手段,当然,打比赛是一种做法,模型创新是另外一种做法,我们可以做更多的尝试,并更贴近落地去做。

最后,为团队做一次广告,我们360人工智能研究院知识图谱团队,从产品、项目交付,技术深度均已取得一定成果,欢迎关注我们的工作。

五、关于作者

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

985922e50194a12233e0b00862848f2d.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477575.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud Zuul重试机制探秘

简介 本文章对应spring cloud的版本为(Dalston.SR4),具体内容如下: 开启Zuul功能通过源码了解Zuul的一次转发怎么开启zuul的重试机制Edgware.RC1版本的优化 开启Zuul的功能 首先如何使用spring cloud zuul完成路由转发的功能,这个问题很简…

论文浅尝 | PASSLEAF: 一个用于不确定知识图谱嵌入的基于样本池的半监督学习框架...

笔记整理:杨露露,天津大学硕士链接:https://ojs.aaai.org/index.php/AAAI/article/view/16522/16329动机在不确定知识图谱的嵌入中,实体之间的每个关系都有一个置信度。鉴于现有的嵌入方法可能会丢弃不确定性信息,或只…

LeetCode 60. 第k个排列(回溯 康托展开)

文章目录1. 题目2. 解题2.1 回溯2.2 数学-康托展开1. 题目 给出集合 [1,2,3,…,n],其所有元素共有 n! 种排列。 按大小顺序列出所有排列情况,并一一标记,当 n 3 时, 所有排列如下: “123” “132” “213” “231” “312” “…

我在谷歌实习时发现了一个模型 bug,于是有了这篇 ACL

文 | AlbertYang编 | 小轶表格的自动理解与检索已经成为 NLP 以及多模态任务中重要的一环。如果我们给模型一个冬奥会的奖牌榜并且问,“哪个国家的金牌最多?”,现有的模型已经可以毫不费力地输出正确的答案(通常都是表格首行的国家…

Spring Cloud Zuul的fallback优化

如何在Zuul中使用fallback功能 我们在项目中使用Spring cloud zuul的时候,有一种这样的需求,就是当我们的zuul进行路由分发时,如果后端服务没有启动,或者调用超时,这时候我们希望Zuul提供一种降级功能,而不…

技术动态 | 「新一代知识图谱关键技术」最新2022进展综述

转载公众号 | 专知链接:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手…

LeetCode 397. 整数替换(递归 贪心)

文章目录1. 题目2. 解题2.1 递归2.2 记忆化递归2.3 贪心1. 题目 给定一个正整数 n,你可以做如下操作: 如果 n 是偶数,则用 n / 2替换 n。如果 n 是奇数,则可以用 n 1或n - 1替换 n。 n 变为 1 所需的最小替换次数是多少&#…

搭配对比学习,万能的 prompt 还能做可控文本生成

文 | ZenMoore编 | 小轶可控文本生成,旨在让语言模型的输出带有我们想要的某种属性。比如情感、主题、三元组等。一般我们习惯采用 CTRL[1] 或者 PPLM[2] 等方式。但是,CTRL 是对整个语言模型进行 Finetuning, PPLM 因为需要在生成的过程中迭代更新 hidd…

Eureka Client注册到Eureka Server的秘密

前言 我们知道Eureka分为两部分,Eureka Server和Eureka Client。Eureka Server充当注册中心的角色,Eureka Client相对于Eureka Server来说是客户端,需要将自身信息注册到注册中心。本文主要介绍的就是在Eureka Client注册到Eureka Server时R…

论文浅尝-综述 | 基于强化学习的知识图谱综述

转载公众号 | 人工智能前沿讲习论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264摘要:知识图谱是一种用图结构建模事物及事物间联系的数据表示形式,是实现认知智能的重要基础,得到了学术界和工业界的广泛关注.…

AI当下要破局,不能没有知识图谱!

AI或AI赋能已是传统行业智能化升级和转型的基本模式。近年来越来越多的传统行业的核心战略转移到人工智能领域,但随着大数据红利的消失殆尽,以深度学习为代表的感知智能水平日益接近其“天花板”(来自肖仰华老师分享)。数据驱动的…

LeetCode 495. 提莫攻击

1. 题目 在《英雄联盟》的世界中,有一个叫 “提莫” 的英雄,他的攻击可以让敌方英雄艾希(编者注:寒冰射手)进入中毒状态。现在,给出提莫对艾希的攻击时间序列和提莫攻击的中毒持续时间,你需要输…

Spring Cloud Config的配置中心获取不到最新配置信息的问题

本篇源于Spring Cloud Config的一个问题,但这个问题并非所有人都会遇到。如果您遇到了,那必须得看看这篇,如果没有遇到您也应该看看,防患于未然! 问题描述 之前有朋友提出Spring Cloud Config的配置中心在运行一段时间…

图谱实战 | 京东基于时序知识图谱的问答系统

转载公众号 | DataFunSummit分享嘉宾:商超博士 京东硅谷研究院 研究员编辑整理:张存旺 北航杭州创新研究院出品平台:DataFunTalk导读:本文将分享Temporal Knowledge Graphs方向的一个最新尝试,如何在时序知识图谱上去做…

请不要吸开源的血

文 | 琴梨梨源 | 知乎今天无聊刷GitHub看到一个让我血压上来的项目乍一看,2.4k star,应该不像是什么小项目应该是比较有用的项目,但接下来的事情属实是让我气的很对于开源项目我是不喜欢下载预构建的成品的,我更喜欢自己动手从源代…

LeetCode 357. 计算各个位数不同的数字个数(DP)

1. 题目 给定一个非负整数 n&#xff0c;计算各位数字都不同的数字 x 的个数&#xff0c;其中 0 ≤ x < 10n。 示例: 输入: 2 输出: 91 解释: 答案应为除去 11,22,33,44,55,66,77,88,99 外&#xff0c;在 [0,100) 区间内的所有数字。来源&#xff1a;力扣&#xff08;Lee…

SpringCloud实战小贴士:Zuul的路径匹配

路径匹配 不论是使用传统路由的配置方式还是服务路由的配置方式&#xff0c;我们都需要为每个路由规则定义匹配表达式&#xff0c;也就是上面所说的path参数。在Zuul中&#xff0c;路由匹配的路径表达式采用了Ant风格定义。 Ant风格的路径表达式使用起来非常简单&#xff0c;…

技术动态 | 一文读懂事件知识图谱

转载公众号 | 普适极客文章来源 | 中国科学院网络数据重点实验室【导读】随着事件这类动态知识得到越来越多的关注&#xff0c;学术界涌现出许多事件知识图谱相关的概念。但究竟事件知识图谱是怎么发展而来的&#xff1f;什么是事件知识图谱&#xff1f;它和其他相关概念之间有…

华为开源CTR Benchmark,学术界SOTAs的照妖镜?

文 | 卖萌酱大家好&#xff0c;我是卖萌酱。众所周知&#xff0c;与CV、NLP不同&#xff0c;搜索、广告、推荐领域的学术界paper在很多问题上喜欢各玩各的&#xff0c;缺乏一个统一可比的benchmark。就推荐/广告中核心的CTR预估问题来讲&#xff0c;从传统的LR、FM到Wide&D…

LeetCode 376. 摆动序列(贪心 动态规划)

文章目录1. 题目2. 解题2.1 贪心2.2 动态规划1. 题目 如果连续数字之间的差严格地在正数和负数之间交替&#xff0c;则数字序列称为摆动序列。第一个差&#xff08;如果存在的话&#xff09;可能是正数或负数。少于两个元素的序列也是摆动序列。 例如&#xff0c; [1,7,4,9,2…