CVPR19 基于图卷积网络的多标签图像识别模型论文笔记

news/2025/7/13 19:58:26/文章来源:https://blog.csdn.net/weixin_37517391/article/details/89916440

笔记

旷视研究院的研究员提出了如下模型,用于图像的多标签分类.
在这里插入图片描述
该模型与一般模型不一样的一点是,它的分类器是生成的,因此它有一个专门生成分类器的子网络.

网络主要由两部分构成

特征表示子网络,该网络由ResNet-101构成,即蓝色框圈出的部分.
分类器生成子网络,该网络由3个GCN层串联组合而成,即红色框组成部分.

动机

基于标签的共现模式，旷视研究员设计了一个全新的标签相关系数矩阵，可显式地用 GCN建模标签相关性，让节点的特征在更新时也能从相关联的节点（标签）吸收信息。
由于从词嵌入向量到分类器的映射参数在所有类别中是共享的，所以习得的分类器能够在词嵌入空间中（语义相关的概念在词嵌入空间中彼此临近）保留较弱的语义结构。与此同时，对于可以对标签依赖性进行隐式建模的分类器函数，所有分类器的梯度都会对它产生影响。

GCN层

每个标签可以看做是一个特征向量.
在第一层的时候,标签的特征向量是 $d$ 维度的,刚好是一个词嵌入向量.
在第二层的时候,标签的特征向量是 $d^{'}$ 维度的,是经过了一个转换矩阵 $W^2$ 的映射.
在第三层的时候,标签的特征向量是 $D$ 维度的,也是经过了一个转换矩阵 $W^3$ 的映射,映射完之后,每个标签的特征向量维度刚好和ResNet101抽取到的特征维度相同了,因此可以作为该标签的分类器了.
这对应第2个动机.

至此还未用到标签间的拓扑图结构,也就没有用到标签间的共现关系,因此他们设计了一个共现矩阵 $A$ ,用于引导信息在标签间的传递.
$\in R^{n*n}$ ,其中 $n$ 是标签的数量.
矩阵是一个先验矩阵,不需要被学习.
这就对应了第1个动机

因此得到了GCN变换公式:

$Hl∈Rn∗d,Wl∈Rd∗d′,A∈Rn∗nH^l \in R^{n*d},W^l\in R^{d*d'},A\in R^{n*n}$

$H^{l+1}=h(AH^{l}W^{l})$

$A$ 的设计

在这里插入图片描述
如图所示,一个很朴素的想法,就是计算一对标签的条件概率作为他们的相关系数.
这样有两个坏处

测试和训练过程中的条件概率可能会不一样.
存在噪音问题导,致长尾分布.

作如下改进: 将矩阵进行二值化,设置一个阈值 $τ∈[0,1]\tau \in [0,1]$

$Aij=[Pij≥τ]A_{ij}=[P_{ij} \ge \tau]$

二值化之后解决了上述两个问题,然而也会引入新的问题,即过度平滑问题.

因此他们提出了二次加权的方法:

在这里插入图片描述
$p$ 是一个预设的超参数.
当 $\rightarrow 1$ 的时候,节点自身的特征往往不会被考虑.
当 $\rightarrow 0$ 的时候,节点相邻点的特征往往不会被考虑.

细节

当一个标签包含多个单词的时候,将所有单词的embedding取平均.

实验结果

在这里插入图片描述

可视化

通过对分类器的可视化,我们可以发现,确实使用GCN可以学习到吧标间之间的内在关联性.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/320919.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

日行千里，全凭“车”况，为什么我们要升级平台

日行千里，全凭“车”况，为什么我们要升级平台

历经一个半月的时间，不管是叫工业互联网平台还是叫工业大数据平台，从1.0版本升级到2.0版本，升级部分包括：客户端（网关）、服务端（数据接收、数据处理、计算服务）、底层数据库结构、WE…

阅读更多...

朋友

朋友题目大意： 有两堆数，只有第一堆数会和第二堆数中比自己小的数交“朋友”，问有多少对朋友原题： 题目描述 mxy 即将前往新世界。在前往新世界的过程中，ta 遇见了两种人。一种是只和 lowb 做朋友，…

阅读更多...

好代码是管出来的——.Net Core中的单元测试与代码覆盖率

好代码是管出来的——.Net Core中的单元测试与代码覆盖率

测试对于软件来说，是保证其质量的一个重要过程，而测试又分为很多种，单元测试、集成测试、系统测试、压力测试等等，不同的测试的测试粒度和测试目标也不同，如单元测试关注每一行代码，集成测试关注的是多个模…

阅读更多...

P3694-邦邦的大合唱站队【状压dp】

P3694-邦邦的大合唱站队【状压dp】

正题题目链接:https://www.luogu.com.cn/problem/P3694 题目大意 nnn个人，有mmm个队伍，每个人都属于一个队伍。要求叫出一些人来，然后任意插入出来的空隙中使得同一队的人在一起。求最少出列人数。解题思路如果知道最终的队列就可以十分…

阅读更多...

数字图像处理作业

数字图像处理作业

图像处理作业 1 取sT(r)11(mr)EsT(r)\frac{1}{1(\frac{m}{r})^E}sT(r)1(rm)E1 其中rrr为原始亮度，mmm为输入区间的中点，EEE描述曲线的陡峭程度 2 一幅8灰度级图像具有如下所示的直方图，求直方图均衡后的灰度级和对应概率，…

阅读更多...

【差分】侦察兵

【差分】侦察兵

侦察兵题目大意： 给出一个图，再给一些点，求出这些点左上角和右下角的数之和原题： 题目描述 mxy 沉迷于一个辣鸡游戏不可自拔。游戏地图是一个 n*n 的矩形，在每个单位格子上有一个数字，代表当前位置…

阅读更多...

深港澳大湾区(深圳).NET技术交流会圆满成功

深港澳大湾区(深圳).NET技术交流会圆满成功

2018年7月7日一场以.NET Core微服务和机器学习为主题的交流会成功在深圳职业技术学院落下帷幕。这次活动在短短的一周时间内，报名人数超过了170人，除了一些同学临时有事，基本都到现场了，特别感谢深职院的软创工作室对这次活动的支…

阅读更多...

P5322-[BJOI2019]排兵布阵【背包】

P5322-[BJOI2019]排兵布阵【背包】

正题题目链接:https://www.luogu.com.cnp/problem/P1768 题目大意 nnn个城池，有sss个玩家对于每个城池有一定的兵。对于所有玩家的每个城池都有派兵一个人数，要求派兵人数之和为mmm。如果你的派兵数列每大于一个玩家派兵数量的两倍那么就可以获得该城池…

阅读更多...

图像处理作业二

图像处理作业二

作业信息 1、证明3.44和3.45的正确性 g(x,y)1K∑i1Kgi(x,y)g(x,y)\frac{1}{K}\sum_{i1}^K g_i(x,y)g(x,y)K1∑i1Kgi(x,y) E[g(x,y)]f(x,y)E[n(x,y)]f(x,y)E[g(x,y)]f(x,y)E[n(x,y)]f(x,y)E[g(x,y)]f(x,y)E[n(x,y)]f(x,y) D[g]E[(g−E[g])2]E[g2]−E[g]2E[f22f(n1n2...nK…

阅读更多...

【模拟】遭遇战

【模拟】遭遇战

遭遇战题目大意： 在一个nn的范围内两个人在跑（san）步，问他们在哪里相遇原题题目描述 mxy 沉迷于一个辣鸡游戏不可自拔。游戏地图是一个 n*n 的矩形，左上角为（0,0），右下角为…

阅读更多...

.Net Core开发日志——Peachpie

.Net Core开发日志——Peachpie

.Net Core的生态圈随着开源社区的力量不断注入至其中，正在变得越来越强盛，并且不时得就出现些有意思的项目，比如Peachpie，它使得PHP的代码迁移到.Net Core项目变得可能。从创建简单的入门程序开始可以更容易地体会其特性。首先安装…

阅读更多...

P5268-[SNOI2017]一个简单的询问【莫队】

P5268-[SNOI2017]一个简单的询问【莫队】

正题题目链接:https://www.luogu.com.cn/problem/P5268 题目大意 nnn个数的一个序列，定义get(l1,r1,x)get(l_1,r_1,x)get(l1,r1,x)表示区间[l1,r1][l_1,r_1][l1,r1]中有多少个xxx。每次询问(l1,r1,l2,r2)(l_1,r_1,l_2,r_2)(l1,r1,l2,r2)求∑x∞…

阅读更多...

图像处理作业第三次

图像处理作业第三次

图像处理作业第三次 1.根据书中对傅立叶变换的定义，证明课本165页上有关傅立叶变换的平移性质。 F(u−u0,v−v0)F(u-u_0,v-v_0)F(u−u0,v−v0) ∑x0M−1∑y0N−1f(x,y)e−j2π((u−u0)x/M(v−v0)y/N)\sum_{x0}^{M-1}\sum_{y0}^{N-1}f(x,y)e^{-j2\pi((u-u_0)x/M…

阅读更多...

初一模拟赛（4.20）

初一模拟赛（4.20）

成绩： rankrankranknamenamenamescorescorescoreT1T1T1T2T2T2T3T3T3T4T4T4111lyflyflyf400400400100100100100100100100100100100100100222wjjwjjwjj310310310100100100100100100100100100101010333hkyhkyhky300300300100100100100100100100100100000333cyzcyzcyz30…

阅读更多...

.NET Core开发日志——Middleware

.NET Core开发日志——Middleware

熟悉ASP.NET架构的开发者一定对于HTTP Modules与HTTP Handlers不陌生。两者的作用主要是对网络请求执行特定的处理工作。而在.NET Core中，它们都被Middleware(中件间)取代了。之前的Http Modules和HTTP Handlers是如下图般处理请求的：现在变成了这样&…

阅读更多...

P3850-[TJOI2007]书架【Splay】

P3850-[TJOI2007]书架【Splay】

正题题目链接:https://www.luogu.com.cn/problem/P3850 题目大意一个书架上有nnn本书，进行mmm次插入操作，然后qqq次询问一个位置上的书。解题思路用SplaySplaySplay进行插入操作，然后直接查询即可 codecodecode #include<cstdio&g…

阅读更多...

【并查集】家族（ssl 1896）

【并查集】家族（ssl 1896）

家族 ssl 1896 题目大意： 合并一些集合，然后判断某两个点是否在同一个集合内原题： 题目描述若某个家族人员过于庞大，要判断两个是否是亲戚，确实还很不容易，现在给出某个亲戚关系图，求任…

阅读更多...

模式识别作业

模式识别作业

模式识别作业 1.说明判别分类器(如logistic回归)与上述特定类别的高斯朴素贝叶斯分类器之间的关系正是logistic回归所采用的形式。经过第2问更加普遍的推导过程： 对应参数为： 二次项： v[σ112−σ1022σ112σ102,...,σD12−σD022σD12…

阅读更多...

Identity Server 4 - Hybrid Flow - Claims

Identity Server 4 - Hybrid Flow - Claims

前一篇 Identity Server 4 - Hybrid Flow - MVC客户端身份验证: https://www.cnblogs.com/cgzl/p/9253667.htmlClaims我不知道怎么样翻译这个词比较好, 所以我一般就不翻译了.在前一篇文章里, MVC客户端配置身份认证的时候有这么一句话(Startup的ConfigureServices):JwtSecurit…

阅读更多...

图像处理作业第7次

图像处理作业第7次

图像处理作业第7次 1.请根据课本中Z变换的定义，证明如下结论。 (1)若x(n)x(n)x(n)的ZZZ变换为X(z)X(z)X(z)，则(−1)nx(n)(-1)^nx(n)(−1)nx(n)的ZZZ变换为X(−z)X(-z)X(−z) 根据ZZZ变换的定义 X(z)∑x(n)z−n,∑(−1)nx(n)z−n∑x(n)(−z)−nX(−z)X(z…

阅读更多...

最新文章