【2024 行人重识别最新进展】ReID3D:首个关注激光雷达行人 ReID 的工作!

【2024 行人重识别最新进展】ReID3D:首个关注激光雷达行人 ReID 的工作!

  • 摘要:
  • 数据集:
  • 方法模型:
    • 多任务预训练:
    • ReID Network:
  • 实验结果:
  • 结论:

来源:Arxiv 2023
机构:清华大学 & 北京理工大学
论文题目:LiDAR-based Person Re-identification

本文是首个基于激光雷达的人ReID的工作,展示了在具有挑战现实世界的户外场景中,利用激光雷达进行的行人 ReID 的实用性!

论文链接:https://arxiv.org/abs/2312.03033

开源代码:https://github.com/GWxuan/ReID3D

摘要:

基于摄像头的重识别(ReID)系统在公共安全领域得到了广泛的应用。然而,摄像机往往缺乏对人类三维形态信息的感知,并且容易受到各种限制,如照明不足、背景复杂和个人隐私,如图:
在这里插入图片描述

在本文中,我们提出了一种基于激光雷达的 ReID 框架,ReID3D,该框架利用预训练策略来检索三维体型的特征,并引入了基于图的互补增强编码器来提取综合特征。由于缺乏激光雷达数据集,我们构建了第一个基于 LiDAR 的行人 ReID 数据集 LReID,该数据集在几个自然条件变化的室外场景中收集。

此外,我们还介绍了 LReID-sync,一个模拟的行人数据集,设计用于具有点云完成和形状参数学习任务的预训练编码器。在 LReID 上的大量实验表明,ReID3D 取得了卓越的性能,准确率为 94.0%,突出了激光雷达在处理行人重识别(ReID)任务方面的显著潜力。

数据集:

据我们所知,本文首次介绍了基于激光雷达的人ReID的研究。我们构建了 LReID,第一个基于激光雷达的 ReID数 据集,以促进利用激光雷达点云对行人 ReID 的研究。我们使用多个收集节点在几个室外场景中收集数据集,每个节点包括一个激光雷达和一个工业摄像机。LReID 数据集提供了几个独特的特点:

  • 真实场景:该数据集是在室外场景中捕捉到的,行人表现出自然行为,导致行人之间的遮挡,以及存在动态物体,如车辆和自行车,可能会影响人的 ReID;
  • 数据多样性:LReID 包含在不同季节、时间和光照条件下收集的 320 名行人的动态数据和注释,总计 15.6 万帧点云和图像,从而能够全面分析不同因素对行人 ReID 的影响;
  • 精密度:Livox Mid-100激光雷达的距离精度为 2 cm 和角精度为 0.1°,为 ReID 问题提供了高精度的三维结构信息。

与公开的 3D 数据集对比:
在这里插入图片描述
下图显示了从不同的场景中收集到的两个行人的样本:

在这里插入图片描述

LReID 收集了两个广泛的户外场景:一个十字路口和一个建筑前的一个广场,捕捉不同的时间周期和天气条件,如图所示:
在这里插入图片描述

此外,我们还引入了一个模拟数据集,名为 LReID-sync,包括 360,000 帧的点云,用于由多视图同步激光雷达捕获的 600 个行人。LReID-sync 包括从单个视图到全视图的点云注释以及 SMPL 参数。LReID-sync 是使用 Unity3D 软件生成的一个新的行人数据集,它模拟了多个同步激光雷达从不同视图捕获的场景中的行人,如图所示:

在这里插入图片描述

方法模型:

基于点云,行人的识别依赖于他们的静态人体测量特征,包括身高、体型、肢体结构,以及他们的动态步态特征。准确地提取完整的行人形状特征对这两个方面都是有益的。为了解决这个问题,我们提出了一个有效的基于激光雷达的框架,称为 ReID3D。ReID3D 利用一种训练前策略来指导编码器学习基于 LReID-sync 的三维身体特征。此外,为了提取行人的区分静态和动态特征,ReID3D 的 ReID 网络包括一个基于图的互补增强编码器(GCEE)和一个时间模块。对LReID进行的大量实验证明了以下几点:

  • ReID3D 的性能优于最先进的相机处理方法,特别是在弱光下,突出了激光雷达在处理个人ReID任务方面的显著潜力;
  • 使用 LReID-sync 进行预训练,显著提高了模型的特征编码能力;
  • 与常用的点云编码器相比,我们的 GCEE 在提取全面和鉴别特征方面表现出更强的能力。

多任务预训练:

根据我们的观察,可能影响ReID模型性能的关键因素是:1)在交叉视图设置下由不同观点导致的信息变化,以及 2)单视角导致的不完整的信息。此外,真实数据的收集和注释成本较高,而模拟数据的成本较低,且注释丰富、准确。

因此,我们利用模拟数据对编码器进行点云完成和 SMPL 参数学习任务的预训练。我们提出的预训练方法的总体思想如图所示,这使编码器能够有效地提取人体测量特征,并减轻视点差异的影响:

在这里插入图片描述

ReID Network:

为了从点云序列中提取时空特征,ReID3D 的 ReID 网络包括一个 GCEE,它由一个GCN主干和CFE组成,以及一个时间模块,如图所示:
在这里插入图片描述

实验结果:

比较结果见下表:

在这里插入图片描述
可以得到几个结论:

  • ReID3D 和 B-ReID3D(不采用预训练)优于基于视频的方法,主要得益于点云的利用,而点云不受光照条件和复杂背景的影响;
  • 此外,ReID3D在整体和低光条件下取得了最先进的结果,但在正常光照条件下,它落后于基于视频的方法。这是因为基于视频的方法在正常光线下充分利用了外观信息;
  • 基于视频的方法在弱光下表现不佳,而 ReID3D 和 B-ReID3D 在弱光和正常光下都表现出相当的可靠性。

为了证明使用模拟数据集 LReID-sync 的预训练的有效性,我们评估了不同的预训练方法的性能。评估了以下四种方法:1)未经预先训练的ReID3D;2)采用类似的 ReID 任务进行预训练,其中预训练模型和损失与 ReID 网络一致;3)预训练,只使用点云完成的分支;4)进行多任务的预训练。

实验结果见表:

在这里插入图片描述
为了展示编码器通过预训练获得的鲁棒特征编码能力,我们将几个具有不同特征的真实行人点云的完成结果可视化,如图所示:
在这里插入图片描述

我们可以观察到:

  • 从直观上看,其详细而粗糙的形状与实际的人体形状非常相似,这表明编码器已经成功地捕获了人体的完整特征;
  • 详细形状是基于粗形状的扩展,具有更高的分辨率和更多的信息;
  • 预先训练好的编码器有能力估计点云中缺失部分的特征。

结论:

本文首次利用激光雷达提供的精确三维结构信息对人ReID进行了研究。首先,我们提出了一个基于lidar的ReID框架,名为ReID3D,利用预训练指导基于图的互补增强编码器(GCEE)提取全面的三维内在特征。此外,我们建立了第一个基于激光雷达的人ReID数据集,称为LReID,它包含了320个在不同的室外场景和照明条件下的行人。此外,我们还引入了LReID-sync,一个新的模拟行人数据集,设计用于具有点云完成和形状参数学习任务的预训练编码器。我们提出的ReID3D在LReID上表现出了卓越的性能,突出了激光雷达在处理人员ReID任务方面的巨大潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/577183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图像分割算法

(车载)毫米波雷达的静止“目标”滤除问题 https://blog.csdn.net/xhblair/article/details/130849777 车载与体征/手势检测 毫米波雷达信号处理流程 csdn链接 专利-一种基于FPGA的步进频高分辨近程雷达探测系统和方法与流程 https://www.xjishu.com/zhuanli/52/2022114681…

drf知识--05

两个视图基类 # APIView:之前一直在用---》drf提供的最顶层的父类---》以后所有视图类,都继承自它 # GenericAPIView:继承自APIView--》封装 继承APIView序列化类Response写接口 # urls.py--总路由 from django.contrib import admin from dj…

ElasticSearch 使用映射定义索引结构

动态映射 dynamic 可选值解释true默认值,启用动态映射,新增的字段会添加到映射中runtime查询时动态添加到映射中false禁用动态映射,忽略未知字段strict发现未知字段,抛出异常 显示映射 创建映射 PUT user {"mappings&qu…

Elasticsearch可视化平台Kibana [ES系列] - 第498篇

历史文章(文章累计490) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 全…

three.js后处理(发光描边OutlinePass描边样式

效果&#xff1a; <template><div><el-container><el-main><div class"box-card-left"><div id"threejs" style"border: 1px solid red"></div><div class"box-right"></div>&…

圆通速递查询,圆通速递单号查询,对需要的单号记录进行标记

随着网购的普及&#xff0c;快递服务已经深入到我们生活的方方面面,我们每天都需要处理大量的快递信息,为了更高效地管理这些信息&#xff0c;【快递批量查询高手】应运而生。 所需工具&#xff1a; 一个【快递批量查询高手】软件 圆通速递单号若干 操作步骤&#xff1a; …

不同参数规模大语言模型在不同微调方法下所需要的显存总结

原文来自DataLearnerAI官方网站&#xff1a; 不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051703254378255 大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任…

【Qt-发布】

Qt编程指南 ■ Qt版本发布■■■ ■ Qt版本发布 生成Release版本。LordCard.exe.查看windeployqt.exe所在目录。 E:\install\Qt\Qt5.14.2\5.14.2\mingw73_64\bin\windeployqt.exe 如果已经将这个路径设置到环境变量中了&#xff0c;那么在当前操作系统的任意目录下都可以访问 …

【华为OD题库-105】滑动窗口最大值-java

题目 题目描述: 有一个N个整数的数组&#xff0c;和一个长度为M的窗口&#xff0c;窗口从数组内的第一个数开始滑动直到窗口不能滑动为止&#xff0c;每次窗口滑动产生一个窗口和&#xff08;窗口内所有数的和)&#xff0c;求窗口滑动产生的所有窗口和的最大值。 输入描述: 第一…

口算练习题(字符串处理)#洛谷

题目描述 王老师正在教简单算术运算。细心的王老师收集了i道学生经常做错的口算题&#xff0c;并且想整理编写成一份练习。 编排这些题目是一件繁琐的事情&#xff0c;为此他想用计算机程序来提高工作效率。王老师希望尽量减少输入的工作量&#xff0c;比如 58 \texttt{58} 5…

IntelliJ IDEA快捷键及调试

文章目录 一、IntelliJ IDEA 常用快捷键一览表1-IDEA的日常快捷键第1组&#xff1a;通用型第2组&#xff1a;提高编写速度&#xff08;上&#xff09;第3组&#xff1a;提高编写速度&#xff08;下&#xff09;第4组&#xff1a;类结构、查找和查看源码第5组&#xff1a;查找、…

05|提示工程(下):用思维链和思维树提升模型思考质量 ## 什么是 Chain of Thought

05&#xff5c;提示工程&#xff08;下&#xff09;&#xff1a;用思维链和思维树提升模型思考质量 什么是 Chain of Thought CoT 这个概念来源于学术界&#xff0c;是谷歌大脑的 Jason Wei 等人于 2022 年在论文《Chain-of-Thought Prompting Elicits Reasoning in Large La…

R-列表、矩阵、数组转化为向量

目录 一、c()函数 二、unlist()函数 一、c()函数 c()&#xff1a;对应的英文是combine. 当你使用c()函数时&#xff0c;它会将输入的对象连接成一个向量。因此&#xff0c;无论输入是矩阵、数组还是列表&#xff0c;c()函数都会将它们连接成一个简单的向量。因此&#xff…

Linux操作系统—磁盘和文件系统管理实用

1. 硬盘和分区基础&#xff1a; - Linux使用设备文件&#xff08;例如 /dev/sda&#xff09;来表示硬盘。 - 使用fdisk或parted等工具对硬盘进行分区。 # 示例&#xff1a;使用fdisk进行分区 sudo fdisk /dev/sda 2. 查看磁盘信息&#xff1a; - 使用lsblk或fdisk查看系统…

k8s修改/etc/resolve.conf导致容器域名解析失败

问题&#xff1a; 因为用户原因&#xff0c;修改了k8s主机中/etc/resolve.conf的dns地址&#xff0c;产生的现象就是主机可以解析域名&#xff0c;但是pod不能解析域名; 原因&#xff1a; CoreDNS 是 Kubernetes 集群中的默认 DNS 服务器&#xff0c;负责处理集群内的 DNS 解…

使用代码生成工具快速开发应用-结合后端Web API提供接口和前端页面快速生成,实现通用的业务编码规则管理

1、通用的业务编码规则的管理功能 在前面随笔我们介绍了一个通用的业务编码规则的管理功能&#xff0c;通过代码生成工具Database2Sharp一步步的生成相关的后端和Winform、WPF的界面&#xff0c;进行了整合&#xff0c;通过利用代码生成工具Database2sharp生成节省了常规功能的…

DreamTuner :通过单张图片实现主题驱动的图像生成

该项目由字节跳动开发&#xff0c;你只需要提供一张图片&#xff0c;DreamTuner就能帮你生成与这张图片在主题和风格上一致的新图像。比如你有一张可乐照片&#xff0c;它可以根据你的要求将可乐放在任何场景中或添加其他元素形成一张完美海报&#xff01; 这个工具特别适用于需…

PyAV 使用浅谈

背景&#xff1a; PyAV是一个用于音频和视频处理的Python库&#xff0c;它提供了一个简单而强大的接口&#xff0c;用于解码、编码、处理和分析各种音频和视频格式。PyAV基于FFmpeg多媒体框架&#xff0c;它本质上是FFmpeg 的Python绑定&#xff0c;因此可以利用FFmpeg的功能来…

【MySQL】数据库之事务

目录 一、什么是事务 二、事务的ACID是什么&#xff1f; 三、有哪些典型的不一致性问题&#xff1f; 第一种&#xff1a;脏读 第二种&#xff1a;不可重复读 第三种&#xff1a;幻读 第四种&#xff1a;丢失更新 四、隔离级别有哪些&#xff1f; &#xff08;1&#xf…

vue中父子组件传值

父传子 传: 在"标签"上传属性 <Card :name"name"></Card> 接: 在props中 export default {props: {name: String},setup(props) {console.log(props.name);} } 子传父 传: 触发,给一个事件传值 setup(props,{emit}) {emit("get…