ACMMM2021｜在多模态训练中融入“知识+图谱”：方法及电商应用实践

简介： 随着人工智能技术的不断发展，知识图谱作为人工智能领域的知识支柱，以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。近年来，知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。

作者 | 朱渝珊
来源 | 阿里技术公众号

一背景

1 多模态知识图谱

随着人工智能技术的不断发展，知识图谱作为人工智能领域的知识支柱，以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。近年来，知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。多模态知识图谱与传统知识图谱的主要区别是，传统知识图谱主要集中研究文本和数据库的实体和关系，而多模态知识图谱则在传统知识图谱的基础上，构建了多种模态（例如视觉模态）下的实体，以及多种模态实体间的多模态语义关系。当前典型的多模态知识图谱有DBpedia、Wikidata、IMGpedia和MMKG。

多模态知识图谱的应用场景十分广泛，它极大地帮助了现有自然语言处理和计算机视觉等领域的发展。多模态结构数据虽然在底层表征上是异构的，但是相同实体的不同模态数据在高层语义上是统一的，所以多种模态数据的融合对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域，例如多模态实体链接技术可以融合多种模态下的相同实体，可应用于新闻阅读，同款商品识别等场景中，多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱，完善现有的多模态知识图谱，多模态对话系统可用于电商推荐，商品问答领域。

2 多模态预训练

预训练技术在计算机视觉(CV)领域如VGG、Google Inception和ResNet，以及自然语言处理(NLP)如BERT、XLNet和GPT-3的成功应用，启发了越来越多的研究者将目光投向多模态预训练。本质上，多模态预训练期望学习到两种或多种模态间的关联关系。学术界的多模态预训练方案多基于Transformer模块，在应用上集中于图文任务，方案大多大同小异，主要差异在于采用模型结构与训练任务的差异组合，多模态预训练的下游任务可以是常规的分类识别、视觉问答、视觉理解推断任务等等。VideoBERT是多模态预训练的第一个作品，它基于BERT训练大量未标记的视频文本对。目前，针对图像和文本的多模态预训练模型主要可以分为单流模型和双流模型两种架构。VideoBERT，B2T2， VisualBERT， Unicoder-VL ， VL-BERT和UNITER使用了单流架构，即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面，LXMERT、ViLBERT和FashionBERT引入了双流架构，首先独立提取图像和文本的特征，然后使用更复杂的cross-attention机制来完成它们的交互。为了进一步提高性能，VLP应用了一个共享的多层Transformer进行编码和解码，用于图像字幕和VQA。基于单流架构，InterBERT将两个独立的Transformer流添加到单流模型的输出中，以捕获模态独立性。

3 知识增强的预训练

近年来，越来越多的研究人员开始关注知识图(KG)和预训练语言模型(PLM)的结合，以使PLM达到更好的性能。K-BERT将三元组注入到句子中，以生成统一的知识丰富的语言表示。ERNIE将知识模块中的实体表示集成到语义模块中，将令牌和实体的异构信息表示到一个统一的特征空间中。KEPLER将实体的文本描述编码为文本嵌入，并将描述嵌入视为实体嵌入。KnowBERT使用一个集成的实体链接器，通过一种单词到实体的注意形式生成知识增强的实体广度表示。KAdapter为RoBERTa注入了事实知识和语言知识，并为每种注入的知识提供了神经适配器。DKPLM可以根据文本上下文动态地选择和嵌入知识，同时感知全局和局部KG信息。JAKET提出了一个联合预训练框架，其中包括为实体生成嵌入的知识模块，以便在图中生成上下文感知的嵌入。KALM、ProQA、LIBERT等研究还探索了知识图与PLM在不同应用任务中的融合实验。然而，目前的知识增强的预训练模型仅针对单一模态，尤其是文本模态，而将知识图融入多模态预训练的工作几乎没有。

二多模态商品知识图谱及问题

随着人工智能技术的不断发展，知识图谱作为人工智能领域的知识支柱，以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。多模态知识图谱与传统知识图谱的主要区别是，传统知识图谱主要集中研究文本和数据库的实体和关系，而多模态知识图谱则在传统知识图谱的基础上，构建了多种模态（例如视觉模态）下的实体，以及多种模态实体间的多模态语义关系。如图1所示，在电商领域，多模态商品知识图谱通常有图像、标题和结构知识。

多模态商品知识图谱的应用场景十分广泛，多模态结构数据虽然在底层表征上是异构的，但是相同实体的不同模态数据在高层语义上是统一的，所以多种模态数据的融合有利于充分表达商品信息。多模态商品知识图谱技术可以服务于各种下游领域，例如多模态实体链接技术可以融合多种模态下的相同实体，可以广泛应用于产品对齐，明星同款等场景中，多模态问答系统对于电商推荐，商品问答领域的进步有着重大的推进作用。但目前还相当缺乏有效的技术手段来有效融合这些多模态数据，以支持广泛的电商下游应用。

图1

最近几年，一些多模态预训练技术被提出（如VLBERT、ViLBERT、LXMERT、InterBERT等），这些方法主要用于挖掘图像模态与文本模态信息之间的关联。然而，将这些多模态预训练方法直接应用到电子商务场景中会产生问题，一方面，这些模型不能建模多模态商品知识图谱的结构化信息，另一方面，在电商多模态知识图谱中，模态缺失和模态噪声是两个挑战（主要是文本和图片的缺失和噪声），这将严重降低多模态信息学习的性能。在真实的电子商务场景中，有的卖家没有将商品图片(或标题)上传到平台，有的卖家提供的商品图片(或标题)没有正确的主题或语义。图 2中的Item-2和Item-3分别显示了阿里场景中的模态噪声和模态缺失的例子。

图2

三解决方案

为了解决这一问题，我们将产品结构化知识作为一种独立于图像和文本的新的模态，称为知识模态，即对于产品数据的预训练，我们考虑了三种模态的信息:图像模态(产品图像)、文本模态(产品标题)和知识模态(PKG)。如图2所示，PKG包含<h, r, t>形式的三元组。例如，<Item-1， Material，Cotton>表示产品Item-1的材质是棉花。我们这样处理的原因在于，（1）PKG描述了产品的客观特性，它结构化且易于管理，通常为PKG做了很多维护和标准化工作，所以PKG相对干净可信。(2) PKG与其他模态包含的信息有重合也有互补，以图2的Item-1为例，从图片、标题和PKG都可以看出Item-1是一件长袖t恤；另一方面，PKG表明这款t恤不仅适合秋季，也适合春季，但从图片和标题看不出来。因此，当存在模态噪声或模态缺失时，PKG可以纠正或补充其他模态。

四模型架构

我们提出了一种在电子商务应用中新颖的知识感知的多模态预训练方法K3M。模型架构如图3所示，K3M通过3个步骤学习产品的多模态信息:（1）对每个模态的独立信息进行编码，对应modal-encoding layer，(2)对模态之间的相互作用进行建模，对应modal-interaction layer，（3）通过各个模态的监督信息优化模型，对应modal-task layer。

图3

（1）modal-encoding layer。在对每个模态的单个信息进行编码时，针对图像模态、文本模态以及知识模态，我们采用基于Transformer的编码器提取图像、文本、三元组表面形式的初始特征。其中文本模态和知识模态的编码器参数共享。

（2）modal-interaction layer。当建模模式之间的相互作用时，有两个过程。第一个过程是文本模态和图像模态之间的交互：首先通过co-attention Transformer基于图像和文本模态的初始特征学习对应的交互特征，其次，为了保持单个模态的独立性，我们提出通过初始交互特征融合模块来融合图像和文本模态的初始特征及其交互特征。第二个过程是知识模态和其他两个模态的交互：首先用图像和文本模式的交互结果作为目标产品的初始表示,用三元组关系和尾实体的表面形态特征作为的商品属性和属性值的表示。然后通过结构聚合模块传播并在目标产品实体上聚合商品属性和属性值信息。商品实体的最终表示可以用于各种下游任务。

（3）modal-task layer。图像模态、文本模态和知识模态的预训练任务分别为掩码对象模型、掩码语言模型和链接预测模型。

五实验与实践

1 实验（论文的实验）

K3M在淘宝4千万商品上训练,其中每个商品包含一个标题,一张图片和一组相关的三元组。我们设置不同的模态缺失和噪音比率，在商品分类、产品对齐以及多模态问答3个下游任务上评估了K3M的效果，并与几个常用的多模态预训练模型对比:单流模型VLBERT,和两个双流模型ViLBERT和LXMERT。实验结果如下：

图3显示了各种模型对商品分类的结果，可以观察到: (1)当模态缺失或模态噪声存在时，基线模型严重缺乏鲁棒性。当TMR增加到20%、50%、80%和100%时，“ViLBERT”、“LXMERT”和“VLBERT”的性能从TMR=0%平均下降10.2%、24.4%、33.1%和40.2%。(2)带有缺失和噪声的文本模态对性能的影响大于图像模态。对比3个基线的“标题噪声”和“图像噪声”，随着TNR的增加，模型性能下降了15.1% ~ 43.9%，而随着INR的增加，模型性能下降了2.8% ~ 10.3%，说明文本信息的作用更为重要。(3)引入知识图可以显著改善模态缺失和模态噪声问题。在无PKG基线的基础上，“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在TMR从0%增加到100%时的平均改善率分别为13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M达到了最先进的性能。它将 “ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各种模态缺失和模态噪声设置下的结果提高了0.6%到4.5%。

图4显示了产品对齐任务的结果。在这个任务中，我们可以得到类似于在项目分类任务中的观察结果。此外，对于模态缺失，模型性能不一定随着缺失率的增加而降低，而是波动的:当缺失率(TMR、IMR和MMR)为50%或80%时，模型性能有时甚至比100%时更低。实际上，这个任务的本质是学习一个模型来评估两个项目的多模态信息的相似性。直觉上，当对齐的商品对中的两个项目同时缺少标题或图像时，它们的信息看起来比一个项目缺少标题或图像而另一个项目什么都不缺时更相似。