ACMMM2021|在多模态训练中融入“知识+图谱”:方法及电商应用实践

简介: 随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。

image.png

作者 | 朱渝珊
来源 | 阿里技术公众号

一 背景

1 多模态知识图谱

随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究文本和数据库的实体和关系,而多模态知识图谱则在传统知识图谱的基础上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。当前典型的多模态知识图谱有DBpedia、Wikidata、IMGpedia和MMKG。

多模态知识图谱的应用场景十分广泛,它极大地帮助了现有自然语言处理和计算机视觉等领域的发展。多模态结构数据虽然在底层表征上是异构的,但是相同实体的不同模态数据在高层语义上是统一的,所以多种模态数据的融合对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域,例如多模态实体链接技术可以融合多种模态下的相同实体,可应用于新闻阅读,同款商品识别等场景中,多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱,完善现有的多模态知识图谱,多模态对话系统可用于电商推荐,商品问答领域。

2 多模态预训练

预训练技术在计算机视觉(CV)领域如VGG、Google Inception和ResNet,以及自然语言处理(NLP)如BERT、XLNet和GPT-3的成功应用,启发了越来越多的研究者将目光投向多模态预训练。本质上,多模态预训练期望学习到两种或多种模态间的关联关系。学术界的多模态预训练方案多基于Transformer模块,在应用上集中于图文任务,方案大多大同小异,主要差异在于采用模型结构与训练任务的差异组合,多模态预训练的下游任务可以是常规的分类识别、视觉问答、视觉理解推断任务等等。VideoBERT是多模态预训练的第一个作品,它基于BERT训练大量未标记的视频文本对。目前,针对图像和文本的多模态预训练模型主要可以分为单流模型和双流模型两种架构。VideoBERT,B2T2, VisualBERT, Unicoder-VL , VL-BERT和UNITER使用了单流架构,即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面,LXMERT、ViLBERT和FashionBERT引入了双流架构,首先独立提取图像和文本的特征,然后使用更复杂的cross-attention机制来完成它们的交互。为了进一步提高性能,VLP应用了一个共享的多层Transformer进行编码和解码,用于图像字幕和VQA。基于单流架构,InterBERT将两个独立的Transformer流添加到单流模型的输出中,以捕获模态独立性。

3 知识增强的预训练

近年来,越来越多的研究人员开始关注知识图(KG)和预训练语言模型(PLM)的结合,以使PLM达到更好的性能。K-BERT将三元组注入到句子中,以生成统一的知识丰富的语言表示。ERNIE将知识模块中的实体表示集成到语义模块中,将令牌和实体的异构信息表示到一个统一的特征空间中。KEPLER将实体的文本描述编码为文本嵌入,并将描述嵌入视为实体嵌入。KnowBERT使用一个集成的实体链接器,通过一种单词到实体的注意形式生成知识增强的实体广度表示。KAdapter为RoBERTa注入了事实知识和语言知识,并为每种注入的知识提供了神经适配器。DKPLM可以根据文本上下文动态地选择和嵌入知识,同时感知全局和局部KG信息。JAKET提出了一个联合预训练框架,其中包括为实体生成嵌入的知识模块,以便在图中生成上下文感知的嵌入。KALM、ProQA、LIBERT等研究还探索了知识图与PLM在不同应用任务中的融合实验。然而,目前的知识增强的预训练模型仅针对单一模态,尤其是文本模态,而将知识图融入多模态预训练的工作几乎没有。

二 多模态商品知识图谱及问题

随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究文本和数据库的实体和关系,而多模态知识图谱则在传统知识图谱的基础上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。如图1所示,在电商领域,多模态商品知识图谱通常有图像、标题和结构知识。

多模态商品知识图谱的应用场景十分广泛,多模态结构数据虽然在底层表征上是异构的,但是相同实体的不同模态数据在高层语义上是统一的,所以多种模态数据的融合有利于充分表达商品信息。多模态商品知识图谱技术可以服务于各种下游领域,例如多模态实体链接技术可以融合多种模态下的相同实体,可以广泛应用于产品对齐,明星同款等场景中,多模态问答系统对于电商推荐,商品问答领域的进步有着重大的推进作用。但目前还相当缺乏有效的技术手段来有效融合这些多模态数据,以支持广泛的电商下游应用。

image.png

图1

最近几年,一些多模态预训练技术被提出(如VLBERT、ViLBERT、LXMERT、InterBERT等),这些方法主要用于挖掘图像模态与文本模态信息之间的关联。然而,将这些多模态预训练方法直接应用到电子商务场景中会产生问题,一方面,这些模型不能建模多模态商品知识图谱的结构化信息,另一方面,在电商多模态知识图谱中,模态缺失和模态噪声是两个挑战(主要是文本和图片的缺失和噪声),这将严重降低多模态信息学习的性能。在真实的电子商务场景中,有的卖家没有将商品图片(或标题)上传到平台,有的卖家提供的商品图片(或标题)没有正确的主题或语义。图 2中的Item-2和Item-3分别显示了阿里场景中的模态噪声和模态缺失的例子。

image.png

图2

三 解决方案

为了解决这一问题,我们将产品结构化知识作为一种独立于图像和文本的新的模态,称为知识模态,即对于产品数据的预训练,我们考虑了三种模态的信息:图像模态(产品图像)、文本模态(产品标题)和知识模态(PKG)。如图2所示,PKG包含<h, r, t>形式的三元组。例如,<Item-1, Material,Cotton>表示产品Item-1的材质是棉花。我们这样处理的原因在于,(1)PKG描述了产品的客观特性,它结构化且易于管理,通常为PKG做了很多维护和标准化工作,所以PKG相对干净可信。(2) PKG与其他模态包含的信息有重合也有互补,以图2的Item-1为例,从图片、标题和PKG都可以看出Item-1是一件长袖t恤;另一方面,PKG表明这款t恤不仅适合秋季,也适合春季,但从图片和标题看不出来。因此,当存在模态噪声或模态缺失时,PKG可以纠正或补充其他模态。

四 模型架构

我们提出了一种在电子商务应用中新颖的知识感知的多模态预训练方法K3M。模型架构如图3所示,K3M通过3个步骤学习产品的多模态信息:(1)对每个模态的独立信息进行编码,对应modal-encoding layer,(2)对模态之间的相互作用进行建模,对应modal-interaction layer,(3)通过各个模态的监督信息优化模型,对应modal-task layer。

image.png

图3

(1)modal-encoding layer。在对每个模态的单个信息进行编码时,针对图像模态、文本模态以及知识模态,我们采用基于Transformer的编码器提取图像、文本、三元组表面形式的初始特征。其中文本模态和知识模态的编码器参数共享。

(2)modal-interaction layer。当建模模式之间的相互作用时,有两个过程。第一个过程是文本模态和图像模态之间的交互:首先通过co-attention Transformer基于图像和文本模态的初始特征学习对应的交互特征,其次,为了保持单个模态的独立性,我们提出通过初始交互特征融合模块来融合图像和文本模态的初始特征及其交互特征。第二个过程是知识模态和其他两个模态的交互:首先用图像和文本模式的交互结果作为目标产品的初始表示,用三元组关系和尾实体的表面形态特征作为的商品属性和属性值的表示。然后通过结构聚合模块传播并在目标产品实体上聚合商品属性和属性值信息。商品实体的最终表示可以用于各种下游任务。

(3)modal-task layer。图像模态、文本模态和知识模态的预训练任务分别为掩码对象模型、掩码语言模型和链接预测模型。

五 实验与实践

1 实验(论文的实验)

K3M在淘宝4千万商品上训练,其中每个商品包含一个标题,一张图片和一组相关的三元组。我们设置不同的模态缺失和噪音比率,在商品分类、产品对齐以及多模态问答3个下游任务上评估了K3M的效果,并与几个常用的多模态预训练模型对比:单流模型VLBERT,和两个双流模型ViLBERT和LXMERT。实验结果如下:

image.png

图3显示了各种模型对商品分类的结果,可以观察到: (1)当模态缺失或模态噪声存在时,基线模型严重缺乏鲁棒性。当TMR增加到20%、50%、80%和100%时,“ViLBERT”、“LXMERT”和“VLBERT”的性能从TMR=0%平均下降10.2%、24.4%、33.1%和40.2%。(2)带有缺失和噪声的文本模态对性能的影响大于图像模态。对比3个基线的“标题噪声”和“图像噪声”,随着TNR的增加,模型性能下降了15.1% ~ 43.9%,而随着INR的增加,模型性能下降了2.8% ~ 10.3%,说明文本信息的作用更为重要。(3)引入知识图可以显著改善模态缺失和模态噪声问题。在无PKG基线的基础上,“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在TMR从0%增加到100%时的平均改善率分别为13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M达到了最先进的性能。它将 “ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各种模态缺失和模态噪声设置下的结果提高了0.6%到4.5%。

image.png

图4显示了产品对齐任务的结果。在这个任务中,我们可以得到类似于在项目分类任务中的观察结果。此外,对于模态缺失,模型性能不一定随着缺失率的增加而降低,而是波动的:当缺失率(TMR、IMR和MMR)为50%或80%时,模型性能有时甚至比100%时更低。实际上,这个任务的本质是学习一个模型来评估两个项目的多模态信息的相似性。直觉上,当对齐的商品对中的两个项目同时缺少标题或图像时,它们的信息看起来比一个项目缺少标题或图像而另一个项目什么都不缺时更相似。

image.png

表2显示了多模态问答任务的排序结果。在这个任务中,我们也可以看到类似于在商品分类任务中的观察结果。

2 实践(阿里的业务应用效果)

1、饿了么新零售导购算法,离线算法AUC提升0.2%绝对值;在线AB-Test实验,流量5%,5天:CTR平均提高0.296%,CVR平均提高5.214%,CTR+CVR平均提高:5.51%;

2、淘宝主搜找相似服务,离线算法AUC提升1%,业务方反馈是很大的提升;目前在线AB测试中;

3、阿里妈妈年货节商品组合算法,在线算法,基于Emedding的实验桶(5.52%)CTR指标相较于另外2个实验桶(5.50%,5.48%)分别提高0.02%、0.04%的点击率,相对提高分别为0.363%、0.73%;

4、小蜜算法团队低意愿下的相似商品的推荐,整体增加这一路的召回情况下,转化能有2.3%到2.7%左右的提升,相对提升12.5%。之前版本相对提升11%。后续扩展到其他场景。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512209.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

带你体验云原生场景下 Serverless 应用编程模型

简介&#xff1a; 阿里云 Knative 基于 ASK 之上&#xff0c;在完全兼容社区 Knaitve 的同时对 FC、ECI 工作负载进行统一应用编排&#xff0c;支持事件驱动、自动弹性&#xff0c;为您提供统一的 Serverless 应用编程模型。 背景 阿里云 Serverless Kubernetes&#xff08;A…

CSO全球网络安全大会来了,权威奖项征集中

全球网络安全顶级峰会——IDC 2022 全球CSO网络安全大会&#xff08;以下简称大会&#xff09;将于2022年6月首次落地中国。本届大会以“聚力数据安全 赋能企业现代化”为主题&#xff0c;由Foundry&#xff08;IDG&#xff09;/IDC联合上海市信息安全行业协会共同举办&#xf…

stream of java_Java 8 新特性-Stream更优雅的处理集合入门

Java 8 新特性之——Stream一. 简单介绍Stream是Java 8提出了的一种新的对集合对象功能的增强。它集合Lambda表达式&#xff0c;对集合提供了一些非常便利&#xff0c;高效的操作&#xff0c;使得代码具有非常高的可读性&#xff0c;优雅性&#xff01;&#xff01;举个例子来说…

MySQL深潜|剖析Performance Schema内存管理

简介&#xff1a; 本文主要是通过对PFS引擎的内存管理源码的阅读&#xff0c;解读PFS内存分配及释放原理&#xff0c;深入剖析其中存在的一些问题&#xff0c;以及一些改进思路。 一 引言 MySQL Performance schema(PFS)是MySQL提供的强大的性能监控诊断工具&#xff0c;提供…

敲地鼠java_Java实现的打地鼠小游戏完整示例【附源码下载】

本文实例讲述了Java实现的打地鼠小游戏。分享给大家供大家参考&#xff0c;具体如下&#xff1a;这里涉及到java线程和GUI的相关知识&#xff0c;一个简单的java小游戏打地鼠&#xff0c;有兴趣的朋友可以优化一下。先来看看运行效果&#xff1a;具体代码&#xff1a;Mouse.jav…

深入理解 Docker 网络原理

作者 | 渡、来源 | CSDN博客Docker网络原理容器是相对独立的环境&#xff0c;相当于一个小型的Linux系统&#xff0c;外界无法直接访问&#xff0c;那他是怎么做的呢&#xff0c;这里我们先了解下Linux veth pair。1. Linux veth pairveth pair是成对出现的一种虚拟网络设备接口…

全网首发|阿里资深技术专家数仓调优经验分享(上)

简介&#xff1a; 本篇文章总结了AnalyticDB表的设计的最佳经验、数据写入的最佳经验、高效查询的最佳实践&#xff0c;以及一些常见的问题。 随着云原生数据仓库AnalyticDB for MySQL&#xff08;下文统一简称&#xff1a;AnalyticDB&#xff09;在阿里集团各个业务线、社会上…

重大技术突破首次发布!十问解密云栖大会!

简介&#xff1a; 2021年10月19日&#xff0c;杭州&#xff0c;云栖大会正式开幕。大会上&#xff0c;阿里巴巴正式发布自研云芯片倚天710&#xff0c;这是阿里云推进“一云多芯”策略的重要一步&#xff0c;也是阿里第一颗为云而生的CPU芯片&#xff0c;将在阿里云数据中心部署…

Redis 缓存击穿(失效)、缓存穿透、缓存雪崩怎么解决?

作者 | 码哥来源 | 码哥字节原始数据存储在 DB 中&#xff08;如 MySQL、Hbase 等&#xff09;&#xff0c;但 DB 的读写性能低、延迟高。比如 MySQL 在 4 核 8G 上的 TPS 5000&#xff0c;QPS 10000 左右&#xff0c;读写平均耗时 10~100 ms。用 Redis 作为缓存系统正好可以…

在 Kubernetes 集群中使用 MetalLB 作为 Load Balancer(上)

作者 | Addo Zhang来源 | 云原生指北TL&#xff1b;DR网络方面的知识又多又杂&#xff0c;很多又是系统内核的部分。原本自己不是做网络方面的&#xff0c;系统内核知识也薄弱。但恰恰是这些陌生的内容满满的诱惑&#xff0c;加上现在的工作跟网络关联更多了&#xff0c;逮住机…

Java程序员情人节_盘点程序员情人节的表白,前端程序员最浪漫,后端不服来战...

今天是 2 月 14 日情人节&#xff0c;我看公众号后台有好多人在回复关键字&#xff1a;情人节表白代码。我想&#xff0c;我作为大家的校长&#xff0c;必须给大家送一波福利代码啊!我是真没想到&#xff0c;竟然很多程序员都想用代码表白&#xff0c;还整的挺浪漫的&#xff0…

GRPC: 如何实现分布式日志跟踪?

简介&#xff1a; 本文将介绍如何在 gRPC 分布式场景中&#xff0c;实现 API 的日志跟踪。 介绍 本文将介绍如何在 gRPC 分布式场景中&#xff0c;实现 API 的日志追踪。 什么是 API 日志追踪&#xff1f; 一个 API 请求会跨多个微服务&#xff0c;我们希望通过一个唯一的 ID…

一文搞懂物联网Modbus通讯协议

简介&#xff1a; 一般来说&#xff0c;常见的物联网通讯协议众多&#xff0c;如蓝牙、Zigbee、WiFi、ModBus、PROFINET、EtherCAT、蜂窝等。而在众多的物联网通讯协议中&#xff0c;Modbus是当前非常流行的一种通讯协议。它一种串行通信协议&#xff0c;是Modicon公司于1979年…

快看世界技术VP安尝思:从漫画到视频,如何用技术赋能创作

供稿 | 快看世界 2月25日&#xff0c;在火山引擎举办的视频云科技原力峰会上&#xff0c;快看世界技术VP安尝思受邀参加&#xff0c;并发表主题为《如何搭建轻量高效的视频技术体系》的演讲。 安尝思表示&#xff0c;快看视频内容的革命性变化来自于漫剧的推出&#xff0c;在过…

2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力

简介&#xff1a; 10月20日&#xff0c;2021年杭州栖大云会上&#xff0c;阿里云发布第四代神龙架构&#xff0c;升级至全新的eRMDA网络架构&#xff0c;是业界首个大规模弹性RDMA加速能力。 10月20日&#xff0c;2021年杭州栖大云会上&#xff0c;阿里云发布第四代神龙架构。…

Rambus推出面向下一代数据中心的PCIe 6.0控制器

新闻摘要&#xff1a; 将先进的人工智能/机器学习、存储和网络应用的性能提升至64 GT/s优化了功耗、面积和延迟&#xff0c;全方位实现PCIe 6.0特性集成IDE引擎提供最先进的数据安全Rambus PCIe 6.0控制器框图 作为业界领先的芯片和IP核供应商&#xff0c;致力于使数据传输更…

阿里云混合云Apsara Stack 2.0发布 加速政企数智创新

简介&#xff1a; 2021年10月21日&#xff0c;杭州 – 今日&#xff0c;阿里云于云栖大会正式发布Apsara Stack 2.0&#xff0c;从面向单一私有云场景&#xff0c;升级为服务大型集团云&行业云场景。新一代Apsara Stack不仅可以为政企定制稳定、安全、开放、智能的数字底座…

ArrayList源码浅析

简介&#xff1a; ArrayList作为我们开发中最常用的集合&#xff0c;作为极高频次使用的类&#xff0c;我们不妨阅读源码一谈究竟。 前言 ArrayList作为我们开发中最常用的集合&#xff0c;作为极高频次使用的类&#xff0c;我们不妨阅读源码一谈究竟。 介绍 ArrayList继承…

阿里云边缘云ENS再升级 四大场景应用加速产业数字化落地

简介&#xff1a; 云栖大会 | 于10月21日上午举办的边缘云应用升级与技术创新论坛中&#xff0c;阿里云边缘云ENS产品全面升级&#xff0c;从边缘云产品、技术、行业应用等维度全面阐述阿里云在边缘计算领域的技术积累、产品&解决方案沉淀、商业实践。 一年一度科技圈盛事…

在 Kubernetes 集群中使用 MetalLB 作为 LoadBalancer(下)

作者 | Addo Zhang来源 | 云原生指北在上一篇《在 Kubernetes 集群中使用 MetalLB 作为 LoadBalancer&#xff08;上&#xff09;》中&#xff0c;我们使用 MetalLB 的 Layer2 模式作为 LoadBalancer 的实现&#xff0c;将 Kubernetes 集群中的服务暴露到集群外。还记得我们在 …