论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题。零样本学习(Zero-Shot Learning, ZSL)的提出,则有效地解决了此类问题,它利用样本之间潜在的语义关系,使得模型可以处理一些之前从未处理过的样本,对于探索实现真正的人工智能具有非常重要的意义。而知识图谱作为包含丰富语义知识的一种载体,在零样本学习建立语义关系方面成为一种天然的帮助。

因此,本次论文浅尝将针对零样本学习现有的研究方法以及其中的知识图谱工作做一些分享。考虑到目前 ZSL 在 CV 领域应用比较广泛,此次的论文分享也以“图片分类”等与图片相关的任务为主。


1 Introduction


1.1 Zero-Shot Learning(ZSL)定义

(1)相关符号

训练数据 X_tr 及其类别标签  Y_tr,即模型可用来训练的数据(马,老虎,熊猫);

测试数据 X_te 及其类别标签 Y_te,即模型待分类的数据(斑马);

类别描述(class/labeldescription) A,对应类别集合(Y=Y_tr+Y_te)中的每一个类别(class) y_i ∈ Y ,可表示为一个语义向量 a_i∈A。

(2)ZSL定义:

       对于测试集中的样本,模型先使用训练数据 X_tr 及其类别标签 Y_tr 进行训练,再通过学习训练类别标签(training classes)和测试类别标签(testingclasses)之间的语义信息,实现对测试数据的分类,进而实现知识的迁移。

640?wx_fmt=png


        ZSL强调 Y_tr 和 Y_te 之间没有重叠,即在训练期间不会出现测试集的样本数据。其中,将在训练期间出现的类别称为 seen class,只在测试期间出现的类别称为 unseen class。


1.2 相关数据集


如下图所示列举了目前ZSL使用较多的各个数据集,分别列举了数据集的规模、粒度、包含class的数量、图片的数量,以及数据集图片相关属性描述的attribute数量。其中Awa是与动物相关的数据集,Awa1仅包含属性,但没有original image的数据集,Awa2表示根据Awa1提供的class从互联网上收集图片组织到的数据集;CUB数据集与鸟类相关;而ImageNet是由WordNet组织的图片数据集,规模较大,且图片类别,即包含细粒度的划分,也包含粗粒度的划分,但它不包含图片的属性信息。

640?wx_fmt=png

 

2 Current Work


总结现有的工作,ZSL 工作的框架主要分为三个部分:

(1)  样本数据特征空间 X 的学习,如利用深度网络提取图片特征;

(2)  关于语义空间 A 中 class 的描述,即构建 seen class 和 unseen class 之间潜在的语义关系;

(3)  特征空间 X 和语义空间 A 之间的映射。

其中,图片分类任务方面,特征空间的表示学习现阶段已经趋于成熟,而语义空间A的构建则是目前比较关注的点。A的表示主要有以下几种方式:

(1)  attribute description:数据集中的每个class都附加了一些与可描述图片的 attribute,如黑色/白色/水生/陆生;

(2)  embedding 表示:每个 class 可作为词,获取语义向量;

(3)  Knowledge Graph/Knowledge Base:每个 class 可对应KG/KB中的一个实体。

下面的部分,以语义空间A的构建方式为划分,分享若干论文。


2.1 ZSL相关论文


1、基于attribute description构建语义空间 A


论文题目:Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer

640?wx_fmt=png

论文链接:http://pub.ist.ac.at/~chl/papers/lampert-cvpr2009.pdf

        基于 attribute description 的方法,其数据集中的每张图片都标注了若干attribute用以描述图片信息。一些标注了attribute的示例图片如下图所示。

640?wx_fmt=png

        这篇论文通过上述每张图片预定义的特征,构建了样本数据的特征表示空间 X;同时,通过若干 classes 集合或图片集合学习可用于表示数据集中所有 class 的 attribute description,完成语义空间 A 的构建;最后,论文提出了使用两种方式建立X和A之间的映射。两种方式为:Direct AttributePrediction(DAP)和Indirect Attribute Prediction(IAP),如下图所示。

640?wx_fmt=png

DAP:训练时,由已知标签的训练集,学习有关 attribute 参数 β;预测时,为每一个测试样本预测其 attribute 参数,进而根据 attribute 建立的 seen class(y) 和 unseen class(z) 之间的关系,推导得出测试样本的 label。

IAP:训练时,按多分类的方式学习参数 α;预测时,根据 attribute 建立的seen class(y) 和 unseen class(z) 之间的关系,推导得到 unseen class 的分布。

DAP在预测时仅依据属性层,而IAP将训练样本的类标也作为一个中间层,一定程度上能限定测试样本生成新类标的范围,使得学习到的连接控制在对于Y来说,有意义的范围内,因此可以增强系统的鲁棒性。但实际上,在作者后面的实验中,DAP的效果要比IAP的效果好很多。依据AwA1数据集,并收集class set相应图片的实验中,DAP的效果为40.5%,而IAP只有27.8%。

这是比较早期的一篇文章,虽然效果没有传统的深度学习方法好,但确实在一定程度上表达了“知识迁移”的思想,不仅利用图片训练相应的特征,更是加入了属性这类的高维特征描述,实现了从“低维图片特征分类器”到“高维语义特征(属性)分类器”的转变。

 

Attribute description相关论文列表:

  • <CVPR-2009>Describing Objects by their Attributes

  • <TPAMI-2014>Attribute-based Classification for Zero-Shot Visual Object Categorization

  • <TPAMI-2017>Zero-Shot Learning-A Comprehensive Evaluation of the Good, the Bad and the Ugly

  • <CVPR-2017>Semantic Autoencoder for Zero-Shot Learning

  • <CVPR-2016>Recovering the Missing Link: Predicting Class-Attribute Associations for Unsupervised Zero-Shot Learning

 

2、基于embedding表示构建语义空间A


论文题目:DeViSE: A Deep Visual-Semantic Embedding Model

640?wx_fmt=png

论文链接:http://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf

      本文提出的 DeViSE 模型,数据集每个 class/label 可作为一个词在语义空间进行 embedding 表示,如使用预训练 skip-gram 模型得到有关 class 的 language feature vector,同时利用预训练的 CNN-based 模型提取图片的 visualfeature vector,将两个向量映射到同一维度的空间,进行相似度的计算。测试时,即可根据语义之间的相似性进行图片的分类。模型结构如下图所示。

640?wx_fmt=png

考虑到训练时负样本发挥的作用,模型的损失函数选择hingeloss。其中,通过dot-product计算相似度。

640?wx_fmt=png

       在 ZSL 场景下,最终实验使用 ImageNet 1k class(seen class) 训练模型,ImageNet 2-hops/3-hops/all (unseen class)  三个测试集测试模型的效果,同时也考虑了generalized ZSL,即在真实场景下测试时也会处理训练集中出现过的 class(如使用 1k+2-hops 的数据作为测试)。实验结果如下图所示。

640?wx_fmt=png


Embedding表示相关论文列表:

  • <ICCV-2015>Predicting Deep Zero-Shot Convolutional Neural Networks using TextualDescriptions

  • <CVPR-2016>Learning Deep Representations of Fine-grained Visual Descriptions

  • <CVPR-2015>Evaluation of Output Embeddings for Fine-grained Image Classification

  • <CVPR-2016>Latent Embeddings for Zero-shot Classification

 

3、基于KG/KB构建语义空间A


(1)论文1:Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

640?wx_fmt=png

论文链接:https://arxiv.org/pdf/1803.08035.pdf

        本文基于 Graph Convolutional Network(GCN,一种处理 Graph-structured 数据的神经网络)引入 Knowledge Graph 的 hierarchy 结构进行计算。模型分为两个独立的部分,首先使用 CNN-based 方法(如 resnet, inception 等)为输入的图片抽取特征向量,即 CNN 部分(图所示上方的 CNN 网络);其次,GCN 部分(图所示下方的 GCN 网络)将数据集中的每个 class 作为 Graph 中的一个节点,并对其作 embedding 表示输入 GCN 网络(即输入为由 N 个 k 维节点组成的 N*k 特征矩阵),通过神经网络每一层之间信息的传递和计算,为每个节点(class)输出一组权重向量(D维),即输出是一个 N*D 的特征矩阵。

640?wx_fmt=png

      模型训练时,Graph 中 seen class 节点有来自 CNN 部分的图片特征向量作为监督信号(图所示绿色节点)训练 GCN 模型的参数;而测试时,Graph 中的 unseen class 节点输出对应的权重向量,同时,与 CNN 部分对应图片输出的特征向量,最终得到分类的结果。

            这里提及的 Graph 为可表示 ImageNet class 之间结构的 WordNet 知识库,实验选取了其中一部分与 ImageNet 相关的子集。

(2)论文2:Rethinking Knowledge Graph Propagation for Zero-Shot Learning

640?wx_fmt=png

论文链接:https://arxiv.org/pdf/1805.11724v1.pdf

      本文在论文 1 的基础上进行了改进,包括以下几个方面:

       (1)更少的 GCN 层数,论文 1 中使用了 6 层神经网络进行训练,考虑到模型参数的优化问题,本文只使用了 2 层神经网络进行计算,即 GPM;

       (2)减少层数的同时,一些较远节点将不被考虑在内,为了解决这个问题,作者将一些节点的祖先节点/子孙节点直接与该节点相连,生成了更密集的图,即DGPM;同时,这些直接相连的边按照距离的远近,加入attention机制进行了加权计算,即 ADGPM;

      (3)作者还提出了在CNN部分根据graph信息进行fine tune的计算方式,使得提取图片特征的卷积网络可根据一些新出现的class进行更新。

       作者使用了与论文1中相同的数据集,即ImageNet 2012 1kclass(seen class)作为训练,ImageNet 2-hops/3-hops/all(unseen class)三个测试集作为测试。对比结果如下,其中GCNZ代表论文1中的方法,GPM、DGPM、ADGPM分别表示上述优化的(1)(2)方面,GPM(f)、DGPM(f)、ADGPM(f)表示finetune的结果,同样地,“2-hops+1k”表示generalizedZSL。

640?wx_fmt=png

 

KG/KB相关论文列表:

  • <IJCAI-2018>Fine-grained Image Classification by Visual-Semantic Embedding

  • <CVPR-2018>Multi-Label Zero-Shot Learning with Structured Knowledge Graphs

  • <NIPS-2009>Zero-Shot Learning with Semantic Output Codes  

  • 少样本学习(Few-Shot Learning, FSL)

      前面 2.2 部分提到的论文,其迁移知识的方式主要是通过在语义空间构建 seen class 与 unseen class 之间的关系(下图左),而 Transductive Setting 则提出可通过 seen class 和 unseen class 的少量样本训练得到class之间的关联(下图右),即少样本学习(Few-ShotLearning, FSL)。

640?wx_fmt=png


论文题目:Learning to Compare: RelationNetwork for Few-Shot Learning

640?wx_fmt=png

论文链接:https://arxiv.org/pdf/1711.06025.pdf

       本文从每个 class 中采样少量样本,作为参考样本(如下图左侧 5 张图片,分别代表 5 个 classes),以建立 class 之间的关系。本文所构建的 class relation 主要为相似关系,模型通过 embedding module 提取图片的特征向量,再分别将测试图片(下图所示袋鼠图片)的特征向量与参考样本的特征向量进行拼接输入 relation module,通过神经网络计算测试图片和参考样本图片之间的相似性,最终判断测试图片属于参考图片代表 class 的哪一类。

640?wx_fmt=png

FSL相关论文列表:

  • <ICLR-2018>Few-Shot Learning with Graph Neural Networks

  • <BigData-2017>One-shot Learning for Fine-grained Relation Extraction via ConvolutionalSiamese Neural Network

  • <NIPS-2016>Matching Networks for One Shot Learning

  • <NIPS-2017>Prototypical Networks for Few-hot Learning

  • <ICLR-2017>Optimization as a model for few-shot learning

  • <ICML-2016>Meta-learningwith Memory-augmented Neural Networks

 

论文笔记整理:耿玉霞,浙江大学直博生,研究方向:知识图谱、零样本学习。

 



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ACL20 | 让笨重的BERT问答匹配模型变快!

一只小狐狸带你解锁炼丹术&NLP秘籍作者&#xff1a;曹庆庆&#xff08;Stony Brook University 在读PhD&#xff0c;关注Efficient NLP、QA方向&#xff0c;详见awk.ai&#xff09;背景BERT、XLNet、RoBERTa等基于Transformer[1]的预训练模型推出后&#xff0c;自然语言理解…

POJ 1581 优先队列 priority_queue -- 比赛胜者求解

题目链接&#xff1a;http://poj.org/problem?id1581 题目大意&#xff1a; 给定选手姓名&#xff0c;及答题提交次数&#xff08;提交正确前&#xff0c;错误一次罚20分&#xff09;&#xff0c;每题的做题时间罚分&#xff08;未正确作答的不罚分&#xff09;&#xff0c;…

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

一、热点事件概述 热点事件具有不可预测性&#xff0c;这决定了热点事件往往是一个“事后诸葛亮”的产物&#xff0c;一个热点事件从刚开始出现之时并没有带有成为热点的性质&#xff0c;当然&#xff0c;重大事故或者突发事件(如总统被杀、日本地震、印尼海啸、巴黎圣母院火灾…

计算机网络安全知识汇总

一、计算机网络面临的安全性威胁计算机网络上的通信面临以下的四种威胁&#xff1a; 截获——从网络上窃听他人的通信内容。 中断——有意中断他人在网络上的通信。 篡改——故意篡改网络上传送的报文。 伪造——伪造信息在网络上传送。截获信息的攻击称为被动攻击&#xff0c…

天猫研发Java团队(4面全题目):并发压测+Mina+事务+集群+秒杀架构

天猫高级Java一面 常见集合类的区别和适用场景 并发容器了解哪些&#xff1f; 如何判断链表是否有环 concurrentHashMap如何实现 集群服务器 如何application 共享 JAVA网络编程中&#xff1a;BIO、NIO、AIO的区别和联系 jvm内存模型jmm 知道的全讲讲 JAVA的垃圾回收&am…

回顾经典,Netflix的推荐系统架构

这篇文章我们回顾一篇经典博客&#xff0c;Netflix官方博客介绍的推荐系统架构&#xff0c;虽然文章发布已有六年&#xff0c; 但是现在回看起来我自己还是蛮惊讶的&#xff0c;因为Netflix的推荐系统架构居然到现在依然是主流。当然&#xff0c;框架中的诸多技术在不断的迭代更…

CNCC 技术论坛 | 知识图谱赋能数字经济

2018中国计算机大会&#xff08;CNCC2018&#xff09;将于10月25-27日在杭州国际博览中心&#xff08;G20会场&#xff09;举行&#xff0c;大会主题为「大数据推动数字经济」&#xff08;Big Data Drives the Digital Economy&#xff09;。10月15日前报名可享优惠&#xff0c…

计算机网络:我把所有计算机网络的基础都汇总到这里了!

原文链接&#xff1a;https://cloud.tencent.com/developer/article/1388529 前言计算机网络基础 该是程序猿需掌握的知识&#xff0c;但往往会被忽略今天&#xff0c;我将献上一份详细 & 清晰的计算机网络基础 学习指南&#xff0c;涵盖 TCP / UDP协议、Http协议、Socket等…

算法--递归--走台阶问题(2种递归+递归改循环)

文章目录递归&#xff1a;注意事项&#xff1a;问题1思路1.递归代码&#xff08;未考虑重复计算问题&#xff09;2.循环代码3.递归代码&#xff08;避免重复计算问题&#xff09;测试运行时间问题2递归&#xff1a; 一个问题可以分解成若干子问题&#xff0c;且求解思路一样&a…

最新2019 蚂蚁金服4面(Java)面试题

蚂蚁金服Java一面 1 自我介绍和项目 2 Java的内存分区 3 Java对象的回收方式&#xff0c;回收算法。 4 CMS和G1了解么&#xff0c;CMS解决什么问题&#xff0c;说一下回收的过程。 5 CMS回收停顿了几次&#xff0c;为什么要停顿两次。 6 Java栈什么时候会发生内存溢出&…

论文浅尝 | 基于表示学习的大规模知识库规则挖掘

链接&#xff1a;www.ict.griffith.edu.au/zhe/pub/OmranWW18.pdf动机传统的规则挖掘算法因计算量过大等原因无法应用在大规模KG上。为了解决这个问题&#xff0c;本文提出了一种新的规则挖掘模型RLvLR(Rule Learning via LearningRepresentation)&#xff0c;通过利用表示学习…

深度学习推荐系统中各类流行的Embedding方法

Embedding技术概览&#xff1a;对其它Embedding技术不熟悉&#xff0c;可以看我的上一篇文章&#xff1a;深度学习推荐系统中各类流行的Embedding方法&#xff08;上&#xff09;Graph Embedding简介Word2Vec和其衍生出的Item2Vec类模型是Embedding技术的基础性方法&#xff0c…

超强干货!7个腾讯最常用的用户研究方法

超强干货&#xff01;7个腾讯最常用的用户研究方法调查知识2017-09-19每天都有互联网产品上市&#xff0c;人们电脑上、手机上的应用在短期之内就可能增增减减换了很多波&#xff0c;最终留下的、那些最经典的产品&#xff0c;都是以好的体验设计取胜。这些产品或许看似很“简单…

算法--递归--汉诺塔问题

文章目录1. 问题分析2. 面试题1. 问题分析 游戏规则&#xff1a;一次只能挪一片&#xff1b;小的只能在大的上面&#xff1b;把所有的从A柱挪到C柱。 递推公式&#xff1a; 上部 n - 1 个 A 到 B&#xff1b;最底下 1 个 A 到 C &#xff1b;上部 n - 1 个 B 到 C&#xff1b;…

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

来源: IJCAI2018链接: https://www.ijcai.org/proceedings/2018/0556.pdf动机近年来&#xff0c;随着多语言知识图谱嵌入(Multilingual KG embedding)的研究&#xff0c;实体的潜在语义表示以及跨语言知识推理等任务均取得一定成效&#xff0c;因此也推动了许多知识驱动的跨语言…

最新阿里聚划算Java 5轮面试题,涵盖GC收集器、多线程锁等

一面 详细的介绍JVM的内存模型结构 JVM最常用的参数配置讲讲 GC垃圾收集算法、GC垃圾收集器有哪些&#xff0c;以及新生代老生代 分别用什么算法 多线程的几种加锁方式详细介绍 实现线程安全的方式&#xff1f;ThreadLocal原理&#xff1f;线程池了解吗说说看&#xff1f;自…

2004-2019十六年热点事件库HistoryHotEventBase项目

HistoryHotEventBase historyhotevent projrct ,which concentrate on the dayily hot event covers the time range from 2004 to 2019, 16 years in total&#xff0c;从2004年至2019年共16年的每日热点事件项目&#xff0c;目标包括构建起从2004年至今共16年的历时热点标题数…

OSI七层模型详解-开放系统互联参考模型详解

原文链接&#xff1a;https://blog.csdn.net/yaopeng_2005/article/details/7064869 OSI 七层模型通过七个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯&#xff0c;因此其最主要的功能就是帮助不同类型的主机实现数据传输 。 完成中继功能的节点通常称为中继系…

最新天猫Java3轮面试题目:虚拟机+并发锁+Sql防注入+Zookeeper

天猫一面 自我介绍、项目介绍 Spring拦截器、实现了哪些方法&#xff1f;底层原理 AOP如何配置&#xff0c;底层原理、2种动态代理&#xff0c;aop注解实现&#xff0c;xml定义切面 Bean的作用域&#xff0c;单例模式是否线程安全&#xff1f;恶汉模式是否线程安全&#xff…

NLP中的少样本困境问题探究

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;JayLou娄杰&#xff08;NLP算法工程师&#xff0c;信息抽取方向&#xff09;前言在医疗、金融、法律等领域&#xff0c;高质量的标注数据十分稀缺、昂贵&#xff0c;我们通常面临少样本低资源问题。本文从「文本增强」和…