mot数据集_谈谈ReID与MOT的关系

fd15c630dbdc3bf82700794e31aea199.png

1.ReID与MOT的联系

在MOT任务中,一般常用的特征模型有运动模型和表观模型,其中表观模型以行人重识别(ReID)类算法为主流。Re-ID任务主要解决的是跨摄像头场景下行人的识别与检索,其中存在给定了身份的图片序列query,需要为不同摄像头场景下的多组图片gallery的行人身份进行判定。

9bf123bb3121e4a7e1d7345eeaa36b24.png

随着现在视觉任务需求的增加,车辆重识别任务也随之诞生,包括与之对应的数据集。对于多目标跟踪任务而言,由于目前只有行人和车辆的标注,所以基本只针对这两类目标,不过最近出来一个833类的多目标跟踪数据集TAO。以行人为例,多目标跟踪相对于Re-ID多出了空间位置信息和时间联系,其更多的是针对的同一摄像头场景,还包括可能出现的相机运动。除此之外,对于Re-ID任务而言,其不需要考虑新身份的诞生和旧身份的消失,所有目标在query中一般都有对应的身份,而MOT任务中需要判定是否有可能不存在现有跟踪轨迹中,是否需要与已经丢失跟踪轨迹身份进行匹配等等,二者的异同总结如下:

8ecd111ccfeb1394cfc3efc33b93af93.png

其中,目标序列严格对称的意思是指的待比对的两个序列中,目标的id是否一致,如果不一致,则表明两个序列各自可能存在新的目标。

借鉴这个问题里面的回答行人重识别(re-ID)与跟踪(tracking)有什么区别

48960af4569f1aab963b4d075c12ed3d.png

我们可以看到ReID是一个相对底层的任务,随着检测、时序信息的加入,就可以拓展至行人检索和视频ReID任务,再引入MOT则可以得到更为高层的任务MTMC(跨摄像头多目标跟踪)。实际上ReID只是个任务名,我们不要将其具象化成了某一类数据集或者某一类深度框架,我们甚至可以直接用传统的图像特征来应用于这个任务,关键要看这个任务的定义。

2.MOT/MTMC中的ReID框架设计

2.1 DeepCC

论文题目: Features for multi-target multi-camera tracking and re-identification
作者:Ergys Ristani,Carlo Tomasi
备注信息:CVPR2018
论文链接:https://arxiv.org/pdf/1803.10859.pdf
代码链接:https://github.com/SamvitJ/Duke-DeepCC

考虑到MOT和MTMC在表征模型方面的相似性,我们一并介绍。DeepCC是MTMC领域的一篇经典论文,我们可以先看看MTMC的基础流程:

d6a70d587f97c5b7556d57bc104ef326.png

给定多个摄像头的视频流,由检测器得到所有的观测行人信息,通过提取每个人的特征对每个行人进行关联匹配/聚类,最后通过后处理进行完善。这篇论文主要做的是ReID任务在MTMC任务上的适配,其关注点不在网络的设计上,而是从训练策略上着手。首先我们不妨思考下如果从MTMC/MOT任务中抽象出ReID任务,无非就是数据集的提取(即相同身份行人序列的抽取),网络框架的设计(特征模型),还有训练策略(损失函数的设计等),而且这里面抽取出来的行人序列在多样性等方面可能都与ReID数据集有着差异。当然,不同视频数据集之间的域自适应性问题是这几个任务的共性问题。

由于我们这次主要关注的是表观特征层面,所以对于其他的部分就暂时忽略。DeepCC设计了一种自适应的三元组损失函数:

61d792c705585d2c6e8ac2ba8ad6189a.png

f2863cc37ee50663490895e8b15396ba.png

我们知道的是,在batch-hard triplet loss,选取的是相同身份中距离最远的样本组为positive,不同身份中距离最近的为negative组。作者并没有使用batch-hard的方式,通过自适应权重的设计我们可以看到,作者通过softmax的方式,使得相同身份样本组中距离越大的权重越大,不同身份样本组中距离越小的权重越大,相当于给了easy sampels更多的注意力。

为了防止数据量大了之后,很多batch不存在hard samples,作者创建了两个样本池:

5772020f731c5bfdc86993d894e2f4e7.png

根据给定的query,设计一组难例样本池和一组随机身份样本池,在训练的时候就可保证难例样本对的正常获取。

很可惜,由于国外对于个人隐私的保护,MTMC相关的数据集都被禁用了。

2.2 NOTA

论文题目:Aggregate Tracklet Appearance Features for Multi-Object Tracking
作者:Long Chen , Haizhou Ai, Senior Member, IEEE,RuiChen , and Zijie Zhuang
备注信息:SPL2019
论文链接:https://www.sci-hub.shop/10.1109/lsp.2019.2940922

如果说DeepCC关注的是ReID任务在MTMC任务中的训练策略设计,那NOTA就是针对ReID任务在MOT任务中的网络框架设计。熟悉MOT任务的人应该知道,由于不同质量观测信息和遮挡等问题的影响,我们直接根据给定行人框提取的行人特征并不一定可靠,例如下图中,一个行人框中可能存在多个行人和大量背景信息。

6d0b9634b622a69ceb0d91d59ce1fdc2.png

因此这篇文章设计了一种时空注意力网络,其中空间注意力模型叫做Position-Sensitive Mask,类似于检测框架中的R-FCN算法,通过将空间分为3x3的网格,每个网格都预测前景/背景的概率,整体打分取平均得到这张图属于前景的概率。

eea1438461ae9c97efacbc2dac12626e.png

紧接着,利用前景背景预测分支的mask对预测的注意力mask进行element-wise乘法,相当于一次过滤,从而得到空间注意力,再对表观特征进行一次element-wise乘法。那么时间注意力来自哪里呢?

作者所针对的是测试阶段的跟踪序列,以前景背景mask作为时间注意力,然后对跟踪序列每个patch的特征和前景背景mask进行加权融合得到轨迹特征,用于轨迹相似度计算:

07e3af590efc84d1696335cf914d8986.png

a9e8ba7e53b4ab51fb68e2660eeace50.png

而关于特征模型,这篇论文做了很多实验,挺有价值的:

8bff3c304f28ef9787ccbab61d0a778b.png

2.3 LAAM

论文题目:Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking
作者:Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang
备注信息:CVPR2019 WorkShop
论文链接:https://arxiv.org/abs/1911.12037
代码链接:https://github.com/hou-yz/DeepCC-local

LAAM这篇关注的主要是ReID任务在MTMC任务中的数据集构建和训练策略,这里有作者的详细讲解,我也相应地谈谈。我们知道无论是Tracktor++[4]还是DeepSort[5],二者都是单独训练的ReID特征模型,然后直接应用于MOT任务。LAAM一文就是提出了一个re-ID特征是否适合直接用于跟踪任务的问题。

作者提到:

由于目标(行人/车辆)轨迹(trajectory)的连续性,在一般情况下,跟踪系统只需要匹配一个局部邻域中的目标,而不需要全局匹配。
  • 局部邻域:对于单相机跟踪,指代同相机的连续帧内的样本;对于跨相机跟踪,指代相邻(距离较小)的几个相机(如下图小框中的一组相机)内的样本。
  • 全局:指代全部相机中的样本。

跟踪系统中的匹配一般被限制在局部邻域内,而应用于相似度估计的重识别特征,则是从全局学到的,相似度估计的结果直接决定数据匹配的性能。在这个关键部分,出现了局部vs全局的失配,则会对系统整体性能有很大影响。

的确,在MTMC任务中,如果处理的是较短时间内的连续视频帧,目标更倾向于出现在较小的局部空间内,并且特征差异性并没有很大。

5122a932bf7a02de7f3f56f20362e73a.png

对此作者就提出对相机内和相机之间的样本分开训练,即同相机内的正负样本来自于同一相机,不同相机内的正负样本来自于不同相机。

d19838ca83e2b222851a64d3510f4e8e.png

虽然方法很简单,但是也具有一定启发意义:

27c5dcdde08aefefa01279f2d9a2e56d.png

2.4 STRN

论文题目:Spatial-temporal relation networks for multi-object tracking
作者:Jiarui Xu, Yue Cao, Zheng Zhang, Han Hu
备注信息:ICCV2019
论文链接:http://openaccess.thecvf.com/content_ICCV_2019/papers/Xu_Spatial-Temporal_Relation_Networks_for_Multi-Object_Tracking_ICCV_2019_paper.pdf

在MOT任务中,除了表观特征,还存在运动特征,除此之外,跟踪序列与跟踪序列/目标之间的相似度度量也是一个问题。STRN这篇论文所针对的就是运动表观特征的结合、跟踪序列特征的融合和目标与周围目标间的交互。下图中虽然t帧中中心目标被遮挡了,但是其周围目标还在,所以依旧被跟踪到了,这一点对于遮挡问题有一定缓解能力。

e24efa12daf409ce9c8c64b98e9449bd.png

首先,作者利用周围目标表观特征对中心目标的特征进行更新:

efab971c0d1b854ed2e48407a7c65adb.png

9a71ea0329f0245850e41a621179ef79.png

其中周围目标的注意力模型(ORM)权重是通过一组仿射矩阵求得周围目标与中心目标的相似度和位置形状相似度加权得到的。

807d1ef3fc6548815e7bef16ef381e12.png

而对于时间信息,同样地,就是对于跟踪序列中不同特征的注意力打分:

e9573a05d446a0e2a852bf8021223a2b.png

9487ec61238b9f033a52d22f26e865b1.png

接下来,作者对于每条跟踪序列和每个观测行人之间的相似度度量进行了研究,首先是将跟踪序列最新的一部分特征加权融合,再与待比对特征进行拼接,通过一个线性转换得到表观关联性特征。

09fba03f0bd859ae8e9b6ed5f1fdb6ee.png

同样地,计算出二者的余弦距离:

b3efb0f18a07d3e877646605b16f4863.png

那么对于位置信息L和运动信息M则有:

0a4254da9d616af77e23190c9e83dce0.png

accf5e7e491a6f20f2b14afe475f3707.png

我们可以看到的是,这里面大多数的相似性度量都是人为设定的,但是也都引入了线性变换矩阵W,这些都是通过一个小网络得来的:

9ff0923a8155beea09779d0a12662c93.png

整体框架如下:

f0d2d35eb40de81b50d8759265de1589.png

其效果如下:

cde30cdd9848bbcaf88d6fcbd8fd181c.png

3 总结

这次我主要介绍了ReID和MOT/MTMC等跟踪人物的结合,可以看到ReID任务可以应用于跟踪人物中的表观特征模型部分。而应用时则需要注意数据集构建的差异、网络框架的设计、训练策略的问题、ReID中域自适应性问题、特征融合与选择等问题。随着这两年联合检测和跟踪的框架的兴起,在这类集成框架中引入ReID分支的算法也相继出现,包括JDE和FairMOT等。那么单独使用ReID特征进行跟踪的话效果会如何呢?各位不妨试试。

参考文献

[1] Ristani E, Tomasi C. Features for multi-target multi-camera tracking and re-identification[C]. in: Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 6036-6046.

[2] Chen L, Ai H, Chen R, et al. Aggregate Tracklet Appearance Features for Multi-Object Tracking[J]. IEEE Signal Processing Letters, 2019, 26(11): 1613-1617.

[3] Yunzhong H, Liang Z, Zhongdao W, et al. Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking[J]. arXiv preprint arXiv:1911.12037, 2019.

[4] Bergmann P, Meinhardt T, Leal-Taixe L. Tracking without bells and whistles[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 941-951.

[5] Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric[C]. in: 2017 IEEE international conference on image processing (ICIP). IEEE, 2017. 3645-3649.

[6] Xu J, Cao Y, Zhang Z, et al. Spatial-temporal relation networks for multi-object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 3988-3998.

[7] Wang Z, Zheng L, Liu Y, et al. Towards Real-Time Multi-Object Tracking[J]. arXiv preprint arXiv:1909.12605, 2019.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/340964.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jClarity:在Azure上升级到Java

在互联世界公共基础结构的新时代,最大和最重要的两个方面是Java和OpenJDK的诞生和兴起。 因此,许多公司将时间和资源投入到构建最先进的技术上,以确保整个行业在未来几年内在AdoptOpenJDK上拥有丰富的质量,而且免费的OpenJDK二进制…

装饰器模式应用场景_装饰器设计模式的应用

装饰器模式应用场景嗨,您好! 今天,我将展示装饰设计模式的实际应用。 装饰器设计模式是一种广泛使用的设计模式,同时在运行期间处理图形,树木和动态更改。 如果您正在寻找或尝试进行递归,这也是一个不错的…

Auto Lisp 标注子样式_CSS 核心样式

CSS核心样式粗细font-weight作用:设置文字是否加粗显示属性名: font-weight, 属于font属性的一个单-属性属性值有两种方式:单词类型、数字类型单词类型数字类型100-900之间的整百数字数字越大,文字显示越粗其中400等价于normal, 700等价于bold字体风格font-style作用…

均质机工作原理动画_3D动画演示:有刷直流电机的工作原理

点上面蓝色字体直观学机械可长期订阅我们法律顾问:赵建英律师下面这张图是电机的分类,在看完这张图后,大家基本也就知道咱们今天说的有刷电机具体属于哪一类了。下面这个是LearnEngineering制作的动画,讲解的是直流电机的工作原理…

a113 智能音箱芯片方案_高通入局智能音箱,首款四核单芯片方案曝光

不得不说,智能音箱已经成为目前重要的科技品类之一,许多公司包括亚马逊、谷歌、苹果、阿里巴巴、小米等等,都在大举进军智能音箱市场。为了尽可能为更多产品提供核心原件,近日,高通公司推出了一款全新的SOC系列——QCS…

隐藏水滴屏的软件_屏下摄像头,实现这一全面屏终极方案有多难?

为了实现真正全面屏,手机厂商们到底能有多拼?在奔向全面屏的征途里,导航键、听筒、传感器、指纹识别模组等都被成功解决,隐藏在边框或屏幕底。唯独前置摄像头,成为全面屏征途的最后一块终极障碍。这场由iPhone X刘海屏…

java ee api_Java EE并发API教程

java ee api这是一个示例章节,摘自Francesco Marchioni编辑的WildFly上的实用Java EE 7开发 。 本章讨论了新的Java EE并发API(JSR 236) ,它概述了使用一组托管资源在Java EE容器上并行执行任务的标准方法。 为了描述如何在您的应…

二进制_简学:二进制数制的应用

设现有正整数150,二进制形式为10010110,现有如下题目,求其尽可能简单的解法。题目一:判断该正整数是否是2的乘方;解法:由上表可以看出2的乘方的二进制形式只有一个bit为1,因此判断一个正整数A是…

swagger 动态设置版本号_如何快速玩转swagger

Spring Boot 框架是目前非常流行的微服务框架,我们很多情况下使用它来提供 Rest API。而对于 Rest API 来说很重要的一部分内容就是文档,Swagger 为我们提供了一套通过代码和注解自动生成文档的方法,这一点对于保证 API 文档的及时性将有很大…

angular java_带有Angular JS的Java EE 7 –第1部分

angular java今天的帖子将向您展示如何使用Java EE 7和Angular JS构建一个非常简单的应用程序。 在去那里之前,让我告诉您一个简短的故事: 我必须承认,我从来都不是Java语言的忠实拥护者,但是我仍然记得我第一次使用它。 我不记得…

操作系统的msxml组件版本过低_Zabbix 5.0 LTS 版本安装

zabbix 5.0 版本于 5 月 11 日正式发布,是最新的 LTS(长期支持)版本,5.0 带来很多功能和特性,后面会陆续推出文章介绍,下面主要介绍下 5.0 版本的安装。环境要求5.0 版本对基础环境的要求有大的变化,最大的就是对 php …

登录判断_Spring Security之多次登录失败后账户锁定功能的实现

在上一次写的文章中,为大家说到了如何动态的从数据库加载用户、角色、权限信息,从而实现登录验证及授权。在实际的开发过程中,我们通常会有这样的一个需求:当用户多次登录失败的时候,我们应该将账户锁定,等…

变压器符号_行输出变压器的结构、符号及电路分析

行输出变压器又称逆程变压器、回扫变压器,俗称行输出,它是电视机、显示器中的一个重要变压器。1.行输出变压器结构行输出变压器的全部绕组和高压整流管均密封在其中,底部引出各个绕组的引脚,高压输出采用高压引线直接送至显像管的…

西南医院微服务咋查得到_#全国最好医院排行榜#发布:成都这4家牛了!四川31个专科排全国前十(总榜)...

病急不能乱投医!近日,一年一度、令人期待的——复旦版《2018年度中国医院排行榜(总榜)》全新揭晓了~这份榜单不仅是是中国医院学科建设的一个标杆也是大众疑难杂症寻找好医院的重要参考四川4家医院入百强!华西全国第二…

voxelnet_ue4商城资源Voxel Sandbox Toolkit体素沙盒工具箱

Unreal Engine虚幻游戏引擎素材资源 Unreal Engine Marketplace –Voxel Sandbox Toolkit体素沙盒工具箱体素沙盒工具箱是一个新的改进版本的体素生成从2016年适应4.22的需要。它用不同类型的立方体、树和拾取网格生成无限世界。因为额外的代码实现比以前的版本快得多。理想的创…

Pub / Sub本地模拟器

发布/订阅是GCP提供的不错的工具。 它非常方便,可以帮助您解决应用程序可能面临的消息传递难题。 实际上,如果您使用GCP,则可以使用托管消息解决方案。 如预期的那样,使用实际的发布/订阅解决方案需要一定的配额,因此…

mysql建表时外检怎么创建_MySQL创建表时加入的约束以及外键约束的的意义

1,创建表时加入的约束a) 非空约束,not nullb) 唯一约束,uniquec) 主键约束,primary keyd) 外键约束,foreign key1,非空约束,针对某个字段设置其值不为空,如:学生的姓名不…

minecraft_MineCraft和堆外内存

minecraft总览 MineCraft是一个很好的例子,说明何时使用堆外内存确实可以提供帮助。 关键要求是: 保留的数据大部分是一个简单的数据结构(在Minecraft的情况下,其很多字节[]) 堆外内存的使用可以隐藏在抽象中。 考试…

win2008 mysql_mysql5.7.17在win2008R2的64位系统安装与配置实例

脚本之家已经给大家讲解过MYSQL其他版本在各种环境中的安装过程,大家可以参阅正文下面的相关文章,今天一起来学习下mysql5.7.17的实例安装教学,配置上稍微不同,希望能够帮助到你。安装MySql操作系统:Windows Server 20…

结构性错误

团队成员在使用以下代码时遇到了麻烦: void extractData(String targetUri) { Path tempFile createTempFilePath(); extractDataToPathAndUpload(tempFile, targetUri); cleanUp(tempFile); } void extractDataToPathAndUpload(Path tempFile, String targetUr…