视频行人搜索 (Person Search in Videos)

文章目录

  • 视频行人搜索 (Person Search in Videos)
    • 图像行人搜索
    • 存在问题
    • Video PS 定义
    • MTA-PS数据集
      • First person search dataset in videos
      • Complicated ambient conditions and realistic monitoring scenarios
      • Privacy insensitivity
    • 方法

视频行人搜索 (Person Search in Videos)

MTA-PS: TOWARDS PRACTICAL PERSON SEARCH IN VIDEOS论文已被 ICIP2024 接收。
论文、代码和数据集链接将会更新。

图像行人搜索

Person Search(行人搜索,PS)旨在从自然的、未经裁剪的图像中同时定位和识别目标人物。

存在问题

  • 图像与现实的差距:现有的PS数据集和研究工作大多基于个人图像,在现实世界中的监控场景实用性有限。尽管行人搜索在两个广泛使用的数据集(即 CUHK-SYSU 和 PRW)上取得了显着进展,但它们都仅由图像组成,导致与现实世界视频监控场景的偏差,以及在实际视频监控系统中需要克服更多挑战。

  • 视频相对图像的优势:与静态图像相比,视频提供额外的时间信息,可以更好的克服遮挡形变等图像难以解决的问题,使从视频中搜索目标人物的轨迹更真实、更准确。

  • 视频数据集的缺失:为了促进视频行人搜索的发展,数据集需要提供全面的GT,特别是在所有摄像机上一致的id。这样的数据不仅难以注释,而且可能违反当前或未来的数据保护权利。例如,杜克大学在2014年提出的一个流行的数据集DukeMTMC作为校园监控视频数据集,在2019年因隐私问题而被禁用。

Video PS 定义

给定目标人的查询图像,我们的目标是搜索目标人物在视频图库中出现的位置,并获得目标人物沿视频序列的完整时间轨迹。

MTA-PS数据集

一个标准的基于视频的人物搜索数据集应该满足以下要求:首先,这些摄像机应该在同一个大场景中,摄像机之间有一些重叠。其次,我们需要确保绝大多数人至少出现在两个摄像头中。通过这种方式,我们可以为出现在多个摄像机中的每个人从其中一个摄像机中选择一个帧作为查询。
在这里插入图片描述

First person search dataset in videos

在这里,我们介绍一个新的数据集,名为MTA-PS,这是第一个视频行人搜索数据集。我们的MTA- ps数据集是基于一个大规模的虚拟数据集MTA中的视频帧和身份标签构建的。MTA数据集记录在侠盗猎车手5 (GTA5)虚拟世界的一小部分,提供了高度的真实感和细节。

Complicated ambient conditions and realistic monitoring scenarios

因此,我们新引入的MTA-PS数据集包含295.2K图像帧,7.2M边界框和1.8K身份,这些图像帧来自6台摄像机和41 FPS的60个视频。MTA-PS考虑了重叠和非重叠摄像机、夜间和白天、室内和室外区域以及不同程度的拥挤,这使得数据集更具挑战性。与现有广泛使用的视频数据集相比,我们的MTAPS数据集在各方面覆盖的多样性程度更高,更具挑战性,更接近实际应用场景,如表1所示。我们将MTA-PS数据集的关键特征总结如下。
在这里插入图片描述

Privacy insensitivity

虚拟数据集克服隐私问题。

方法

为了验证视频行人搜索的有效性,并充分利用我们数据集上的时间信息,我们还通过无缝集成人物检测、跟踪和重新识别三个子任务,提出了一个新的框架。
在这里插入图片描述
由于性能优异,我们采用了最近提出的ByteTrack作为我们的基网。首先,将由多个视频组成的视频库馈送到主干。然后,分类头、回归头、IoU头和re-ID头共同工作,得到每帧中每个人的边界框和re-ID特征。然后进行数据关联和运动预测,将视频库中的每个行人边界框进行关联,得到每个人的轨迹和相应的特征。同时,保留视频中每个人的时间特征,并与每个人的re-ID特征融合,得到每个人ID对应的特征。然后,我们计算这些特征与查询人特征之间的相似度。最后,从视频库中提取目标人物在不同摄像机下的运动轨迹。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26213.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FiRa标准UWB MAC实现(三)——距离如何获得?

继续前期FiRa MAC相关介绍,将FiRa UWB MAC层相关细节进一步进行剖析,介绍了UWB技术中最重要的一个点,高精度的距离是怎么获得的,具体使用的测距方法都有哪些,原理又是什么。为后续FiRa UWB MAC的实现进行铺垫。 3、测距方法 3.1 SS-TWR SS-TWR为Single-Sided Two-Way Ra…

ER实体关系图(一)

用户表(user)、用户钱包表(user_wallet)(与user是1对1关系)、用户钱包交易日志表(user_wallet_log)(与user是1对多关系) user:用户表通常包含用户的基本信息,例如用户ID(主键)、用户名、密码(通常加密存储)…

Windows远程桌面连接

试验:使用Oracle VM VirtualBox创建虚拟机与物理机进行远程桌面连接实验 1. 准备 使用VirtualBox创建一台win10虚拟机,并与本地物理机相互ping通。(注意:如何存在ping不通,可以试一下关闭Windows的防火墙)…

iLogtail 2.0 重大升级,端上支持 SPL

作者:太业 流式处理语言发展 早期流式处理概念: 20 世纪 70 年代,编程语言如 APL 提供了对数组的流式操作,这可以看作是流式处理语法的早期形式。管道(Pipes)概念在 UNIX 系统中的引进使得可以通过命令行将…

课时152:项目发布_手工发布_方案解读

1.2.1 方案解读 学习目标 这一节,我们从 基础知识、简单实践、小结 三个方面来学习 基础知识 案例需求 实现一套业务环境的项目发布流程,基本的网站架构效果如下:架构解读:负载均衡采用Nginx服务,基于请求内容进行…

孩子用的灯什么样的好?劣质LED台灯所带来的三大危害

随着科技设备不断的进步,护眼台灯已经逐渐成为了书房中不可或缺的一员。它以多功能的特性赢得了广大消费者的青睐。然而,市面上的护眼台灯质量良莠不齐,这使得消费者的选择变得更加困难。不良产品不仅可能带来安全隐患,甚至有潜在…

AI 大模型训练中,通常会采用哪些方法?(输入篇)

大家好 某种程度来说大模型训练的核心算法就是300到400行代码,如果真正理解了并不难。下面我将带大家分析常规大模型训练有几个阶段以及在训练中一般会用到哪些方法。 由上图可以看出,大模型训练主要有四个阶段:预训练、有监督微调、奖励建模…

大模型的高考数学成绩单:及格已经非常好了

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。 一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!! 和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国…

打工人和学生党的福利,NewspaceGpt使用新体验

使用地址:https://newspace.ai0.cn/ 个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮…

小型气象站:现代气象监测的便携化解决方案

TH-QC12在气象监测领域,技术的不断创新和进步推动了监测设备的多样化和便携化。小型气象站作为这一趋势下的产物,以其体积小、功能全、操作简便等特点,受到了广泛的关注和应用。 小型气象站的技术特点 小型气象站集成了多种气象传感器&…

提升易用性,OceanBase生态管控产品的“从小到大”

2022年,OceanBase发布4.0版本“小鱼”,并首次公开提出了单机分布式一体化这一理念,旨在适应大小不同规模的工作负载,全面满足用户数据库“从小到大”全生命周期的需求。当时,我们所说的“从小到大”主要聚焦于数据库的…

【Qt 学习笔记】Qt窗口 | 对话框 | 模态与非模态对话框的创建

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt窗口 | 对话框 | 创建模态及非模态对话框 文章编号:Qt 学…

准橙人工翻译微信小程序,100+专业领域的译者在线帮你翻译!藏语、维吾尔语、哈萨克语、壮语、彝文、蒙古语统统支持人工翻译!

亲爱的朋友们,我们深知每一种语言都承载着独特的文化和历史,为了传承和弘扬这些宝贵的文化遗产,我们诚挚地邀请具备翻译经验并熟练掌握以下任意一门语言的您加入我们的团队! 中国少数民族语言:藏语、维吾尔语、哈萨克…

懵了!伦敦银是现货白银吗?

近期,伦敦银价格出现了比较强势的上涨,很多朋友想入场炒银。不过当他们接触伦敦银交易市场的时候就懵了,这个交易品种好像有很多名称,一会儿说伦敦银,一会儿说现货白银,搞得自己都混乱了。到底伦敦银是现货…

CVE-2023-37569(未授权任意文件上传+弱口令爆破)

靶场简介 Online Piggery Management System v1.0 - 存在未授权的文件上传漏洞,登陆界面弱口令爆破 进入靶场 猜测弱口令admin/admin,错误,进行账号密码爆破 得到账号密码 admin/password 登陆进入,找到一处文件上传位置 上传…

千问Qwen7B chat:本地部署及网页端使用

基于前面的安装经验,千问大模型的本地部署并不算难,主要时间用在大模型文件的下载上。同时系统运行对硬件也有较高的要求,本机的硬件配置为N卡3060,显存12G。 使用conda创建虚拟环境,主要版本如下: Pyth…

生成式人工智能 - stable diffusion web-ui安装教程

一、Stable Diffusion WEB UI 屌丝劲发作了,所以本地调试了Stable Diffusion之后,就去看了一下Stable Diffusion WEB UI,网络上各种打包套件什么的好像很火。国内的也就这个层次了,老外搞创新,国内跟着屁股后面搞搞应用层,就叫大神了。 不扯闲篇了,我们这里从git源码直接…

Vue18-列表渲染

一、v-for渲染列表 1-1、遍历数组&#xff08;用的多&#xff09; 1-2、key属性 让每一个<li>都有一个唯一的标识&#xff01; 1、写法一 只有用了遍历的方式(v-for)来生成多个同样结构的数据&#xff0c;必须给每个结构取一个唯一的标识。 2、写法二 或者&#xff1a;…

【全开源】生产管理系统源码(FastAdmin+ThinkPHP+Layui+uniapp)

&#x1f525;揭秘高效生产管理系统&#xff0c;让你的企业腾飞&#xff01;&#x1f680; 一款基于FastAdminThinkPHPLayuiuniapp开发的生产管理系统&#xff0c;帮助企业数字化转型&#xff0c;打造智能工厂&#xff0c;专业为生产企业量身开发的一套完整的生产管理系统。主…

【乐吾乐2D可视化组态编辑器】管道绘制,水流动画

用乐吾乐2D可视化连线丰富的外观和动画效果&#xff0c;快速绘制各种风格的管道和水流动画。 乐吾乐2D可视化组态编辑器地址&#xff1a;https://2d.le5le.com/ 方式一&#xff1a;线条渐变 特点&#xff1a;呈现管道的金属光泽和管道剖面 外观&#xff1a;线条渐变--线性渐…