今天介绍的一篇论文是针对无人机场景下的行人重识别,论文题目为:"无人机场景下基于 Transformer 的轻量化行人重识别"。该论文针对无人机场景下行人呈现多角度多尺度的特点、以及传统CNN网络在行人重识别任务中受限于感受野和下采样导致的无法充分提取特征,同时也为了便于算法的部署而提出了一种基于Transformer轻量化Reid网络(Lightweight Transformer-based Person Re-Identification, LTReID)。
注:该论文并未开源任何资源(比如代码和数据集),因此论文的真实性并不清楚,本人这里并不负责复现,只是通过该论文为读者提供一个研究思路。
目录
国内外ReID研究难题
国内外ReID在无人机领域的研究现状
Transformer存在的问题
论文对于算法改进的思路
基于Transformer 的轻量化行人重识别关键技术
面向Transformer 的掩码搜索剪枝算法
损失函数设计
面向无人机场景的空间信息嵌入
参考文献
国内外ReID研究难题
论文首先介绍了国内外围绕ReID的研究难题,比如人物遮挡问题的重识别、全局和局部特征提取效果差的问题。大多数研究主要从添加注意力机制、引入无监督学习和修改网络结构等多个方面提高网络性能,但这些方法无法避免由于卷积和池化带来的识别度下降的问题,同时部分算法会导致模型参数较大,推理实践慢。
对上述部分,这里说一下个人观点供大家参考,首先为什么说卷积和池话带来识别度下降的问题,这是因为卷积获得的特征基本都是局部特征,无法像Transformer一样获取全局特征(或者可以理解为Transformer就是一个特殊的卷积),虽然网络的加深,网络的感受野势必也会受到影响,池化层也影响到周边像素的特征提取,因为这些种种问题会导致识别率低。
国内外ReID在无人机领域的研究现状
然后作者又讨论了国内外Reid在无人机领域的研究,例如,作者指出,近些年元学习和迁移学习被引入无人机场景下的行人重识别[1],利用元学习提高特征提取能力,利用迁移学习改进所获得的元知识,用这两种策略解决无人机场景下人物图片差异较大的挑战。还有使用卷积后特征图的子空间池化来表征输入的图像[2],用该方法让网络学习到更具判别性和紧凑性的特征表示。还有在模型训练中加入协方差信息提高网络的鲁棒性。但不论怎样,作者指出这只是将一些经典算法应用到无人机场景中,没有专门针对无人机场景下的特点对模型进行改进,比如没有利用最新基于注意力机制的 Transformer 模型对无人机场景下的行人图像进行全局特征的提取(我觉得这里说法有问题,只能说你可能没有找到这类论文,而不能说没有)。
Transformer存在的问题
随后作者又指出了Transformer存在的一些问题,比如参数量大导致推理和部署困难,因此作者想到了剪枝进行轻量化。通常剪枝分为结构化剪枝(通道剪枝)和非剪枝化剪枝(权重剪枝),非结构化剪枝一般是需要特定的硬件或者算法库的支持,所以作者选择了结构化剪枝(也是最为常用的方法)。多数结构化剪枝方法由于剪枝后或者剪枝期间需要进行额外的训练,并且剪枝流程需要引入额外的超参数进行调整,因此在实际中阻碍了结 构化剪枝方法的应用。(这里作者附上了一个参考文献,是说Transformer可以不用在训练中剪枝,而是在推理中进行动态剪枝,这个想法很有意思,后面有时间我会研究下并进行分享[3-4])
论文对于算法改进的思路
针对以上问题,我对作者在论文中的算法改进进行了以下总结:
1. 利用多头多注意力机制获取长距关联,提升网络的特征提取能力。
2.针对无人机场景下特点(多角度,多尺度),用Circle和边界样本挖掘损失进行训练。
3.在transformer网络中加入边信息嵌入技术,将空间角度非视觉信息特征嵌入到输入中进行学习。
4.使用快速的掩码搜索剪枝[5]进行Transfomer轻量化,可在不进行重训练情况下的轻量化剪枝。
网络结构图如下所示:
图中的空间角度信息就是作者说的使用边信息嵌入技术,将空间信息嵌入到输入中进行训练学习。
基于Transformer 的轻量化行人重识别关键技术
面向Transformer 的掩码搜索剪枝算法
为了实现在不对模型进行重训练的情况下进行轻量化,通过费雪信息矩阵对Transformer 网络中头部和滤波器进行轻量化剪枝。(这部分也等我后面研究一下这个算法)
首先Transformer 的剪枝问题可以归纳为以下优化方法:
其中L为损失函数,m为掩码向量,C 为对浮点运算或时延等成本限制,为了有效的优化该方法,对损失函数围绕 m = 1 进行二阶泰勒展开,并且假设模型收敛到局部最优,损失函数优化可以表示如下:
其中, l表示 K 维全 1 向量, H 为损失函数对应掩码向量的海森矩阵,海森矩阵 H 是二阶偏导数矩阵,计算过于复杂,因此 H 需要进一步简化为对角矩阵形式的费雪信息矩阵,则简化为:
损失函数设计
由于无人机多视角多尺度特点,不同行人之间的图像差别度减少,相同行人不同视角和高度的图像差距增加,常用的交叉熵和三元组损失函数很难 满足模型训练要求。因此采用Circle 损失函数和边界样本挖掘损失函数。
为 Circle 损失函数 ,在 Circle 损失函数中,相较于一般的交叉熵损失函数,从最小化为优化目标(n表示的类间相似,也就是负样本,p表示类内)扩展为.
边界样本挖掘损失:
这种就是在寻找最困难的正样本和最困难的负样本。
面向无人机场景的空间信息嵌入
由于无人机多视角的特点,提出了 面向无人机场景的空间信息嵌入,将空间角度信息等非视觉信息嵌入到输入序列中,以学习相同对象不同空间视角的不变特性。作者指出,空间角度信息可以分为两种:(1)以行人所在地为原点,人脸朝向为 X 轴,设无人机地面投影点和原点的连线与 X 轴正方向的顺时针夹角为方向角 φ ∈ [0, 2π]。以人身为 Z 轴,设无人机和原点连线与 Z 轴 正 方 向 的 顺 时 针 夹 角 为 仰 角 θ ∈ [0,π/ 2] 。在两个方向上分别等间隔取N个区间
论文引用:
胡海峰,倪宗煜,赵海涛,等. 无人机场景下基于 Transformer 的轻量化行人重识别[ J]. 南京邮电大学学报(自然科学版),2024,44 (3):48 62.
参考文献
[1] XU L L, PENG H F, LU X, et al. Learning to generalize aerial person re-identification using the meta-transfer method[ J]. Concurrency and Computation: Practice and Experience, 2023, 35(12): e7687.
[2] ZHANG S Z, ZHANG Q, YANG Y F, et al. Person reidentification in aerial imagery[ J]. IEEE Transactions on Multimedia, 2021, 23: 281-291.
[3] HOU L, HUANG Z, SHANG L, et al. DynaBERT: dynamic BERT with adaptive width and depth [ J ]. Advances in Neural Information Processing Systems, 2020, 33: 9782-9793.
[4] LIU Z J, LI F R, LI G, et al. EBERT: efficient BERT inference with dynamic structured pruning[C]//Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 4814-4823.
[5] KWON W, KIM S, MAHONEY M W, et al. A fast post-training pruning framework for transformers [ J ]. Advances in Neural Information Processing Systems,2022, 35: 24101-24116.