详解停车位检测论文:Attentional Graph Neural Network for Parking-slot Detection

在这里插入图片描述
本文介绍一篇注意力图神经网络用于停车位检测论文,论文已收录于 RA-L2021。在之前的基于卷积神经网络的停车位检测方法中,很少考虑停车位标记点之间的关联信息,从而导致需要复杂的后处理。在本文中,作者将环视图中的标记点看作图结构数据,使用图神经网络聚合相邻的标记点信息,不需要任何后处理,可以端到端训练。在ps2.0PSV 停车位数据集上都取得了最优的检测性能。

论文链接为:https://arxiv.org/pdf/2104.02576.pdf

项目链接为:https://github.com/Jiaolong/gcn-parking-slot


1. Method

1.1 Overview

本文提出的基于注意力图神经网络停车位检测模型结构如下图所示,由三部分组成:Graph feature encoder,Graph feature aggregation,Entrance line discriminator。停车位一般由四个标记点组成 (P1,P2,P3,P4)(P_1,P_2,P_3,P_4)(P1,P2,P3,P4) (四个顶点按照逆时针排序);因此停车位检测问题可以描述为检测车位进入线上顶点 (P1,P2)(P_1,P_2)(P1,P2) 的问题。本文提出的停车位检测流程为:

  • 给定一张环视图 I∈RH×W×3\mathbf{I} \in \mathbb{R}^{H\times W\times 3}IRH×W×3,首先使用卷积神经网络进行特征提取。 然后标记点检测器检测标记点,标记点编码网络提取标记点特征。
  • 接着使用注意力图神经网络推理标记点之间的关系,本文设计的图神经网络为全连接网络,其中每一个点表示为标记点。
  • 最后,使用车位进入线判别器决定两个标记点是否可以形成一个有效的车位进入线。

在这里插入图片描述


1.2 Graph Feature Encoder

标价点检测器输出为 S×S×3S\times S\times 3S×S×3 的特征图,其中通道 333 包含标记点位置 (x,y)(x,y)(x,y)置信度 ccc。在使用极大值抑制(NMS)后会得到 NNN 个标记点。

标记点特征编码器包含 444 个卷积层,输出特征图为 S×S×64S\times S \times 64S×S×64。对于检测到的 NNN 个标记点位置 P=(x,y)∈RN×2P=(x,y) \in \mathbb{R}^{N\times 2}P=(x,y)RN×2,使用双线性插值计算标记点特征。最终得到标记点特征 F∈RN×64\mathbf{F} \in \mathbb{R}^{N\times 64}FRN×64。这里特征图大小 S=16S=16S=16

为了增强特征表示,将标记点位置和特征进行融合
vi=fi+MLP(xi,yi)\mathbf{v}_i=\mathbf{f}_i+\mathbf{MLP}(x_i,y_i) vi=fi+MLP(xi,yi)

其中,fi\mathbf{f}_ifi 为最初的标记点特征。


1.3 Graph Feature Aggregation

融合后的标记点特征集合 V\mathbf{V}V,构造一个全连接的图网络 G=(V,E)\mathbf{G}=(\mathbf{V},\mathbf{E})G=(V,E),其中 V\mathbf{V}V 表示 NNN 个节点 (xi)(\mathbf{x}_i)(xi)E\mathbf{E}E 表示 N×NN \times NN×N 条边。

图神经网络每一层标记点特征更新方法为:
xil+1=xil+MLP([xil∥mEi→il])\mathbf{x}_{i}^{l+1}=\mathbf{x}_{i}^{l}+\mathbf{M L P}\left(\left[\mathbf{x}_{i}^{l} \| \mathbf{m}_{E_{i} \rightarrow i}^{l}\right]\right) xil+1=xil+MLP([xilmEiil])

其中 mEi→il\mathbf{m}_{E_{i} \rightarrow i}^{l}mEiil 为第 iii 个节点一阶邻域 Ei{E}_iEi 聚合的信息,由注意力机制计算得来,[⋅∥⋅][\cdot \| \cdot][] 为特征结合操作。

对于每一个图节点特征 xil\mathbf{x}_i^lxilquery,key,value 计算为:
qi=W1lxil+b1lkj=W2lxjl+b2lvj=W3lxjl+b3l\begin{aligned} \mathbf{q}_{i} &=\mathbf{W}_{1}^{l} \mathbf{x}_{i}^{l}+\mathbf{b}_{1}^{l} \\ \mathbf{k}_{j} &=\mathbf{W}_{2}^{l} \mathbf{x}_{j}^{l}+\mathbf{b}_{2}^{l} \\ \mathbf{v}_{j} &=\mathbf{W}_{3}^{l} \mathbf{x}_{j}^{l}+\mathbf{b}_{3}^{l} \end{aligned} qikjvj=W1lxil+b1l=W2lxjl+b2l=W3lxjl+b3l

节点 i,ji,ji,j 之间的注意力计算为:αi,j=Softmax(qiTkj)\alpha_{i,j}=Softmax(\mathbf{q}_i^{T} \mathbf{k}_j)αi,j=Softmax(qiTkj),则图节点聚合信息为: mEi→il=∑j∈Eiαi,jkvj\mathbf{m}_{E_{i} \rightarrow i}^{l}=\sum_{j \in E_{i}} \alpha_{i, j}^{k} \mathbf{v}_{j}mEiil=jEiαi,jkvj。在本文中,使用多个注意力头,则聚合信息为:mEi→il=Wl(mEi→il,1∥mEi→il,2∥⋯∥mEi→il,h)\mathbf{m}_{E_{i} \rightarrow i}^{l}=\mathbf{W}^{l}\left(\mathbf{m}_{E_{i} \rightarrow i}^{l, 1}\left\|\mathbf{m}_{E_{i} \rightarrow i}^{l, 2}\right\| \cdots \| \mathbf{m}_{E_{i} \rightarrow i}^{l, h}\right)mEiil=Wl(mEiil,1mEiil,2mEiil,h)


1.4 Entrance Line Discriminator

两个图节点特征结合得到一个 1×1281\times 1281×128 的输入特征,然后输入到线性判别器。最终输出为 K×5K \times 5K×5 的矩阵,其中 K=N×NK=N \times NK=N×N,表示为标记点对。每一对标记点对包含5个元素:x1,y1,x2,y2,tx_1,y_1,x_2,y_2,tx1,y1,x2,y2,t。其中 (x1,x2,x2,y2)(x_1,x_2,x_2,y_2)(x1,x2,x2,y2)标记点位置ttt 表示形成车位进入线的概率

整个损失函数为:
loss=λ1losspoint+λ2losslineloss=\lambda_1 loss_{point} + \lambda_2 loss_{line} loss=λ1losspoint+λ2lossline

其中标记点损失 losspointloss_{point}losspoint 为:
los⁡spoint =1S2∑i=1S2{(ci−ci^)2+1i[(xi−xi^)2+(yi−y^i)2]}\operatorname{los} s_{\text {point }}=\frac{1}{S^{2}} \sum_{i=1}^{S^{2}}\left\{\left(c_{i}-\hat{c_{i}}\right)^{2}+\mathbb{1}_{i}\left[\left(x_{i}-\hat{x_{i}}\right)^{2}+\left(y_{i}-\hat{y}_{i}\right)^{2}\right]\right\} losspoint =S21i=1S2{(cici^)2+1i[(xixi^)2+(yiy^i)2]}

车位进入线损失 losslineloss_{line}lossline 为:
lossline=1N2(−∑i=1N∑j=1Nlij^loglij)loss_{line} = \frac{1}{N^2} (-\sum_{i=1}^{N}\sum_{j=1}^{N} \hat{l_{ij}}logl_{ij}) lossline=N21(i=1Nj=1Nlij^loglij)


2.Experimental Results and Discussion

2.1 Datastes & Setting

ps2.0 停车位数据集包含9827张训练图片(9476个停车位),2338张测试图片(2168个停车位);每一张图片大小为 600×600600 \times 600600×600,对应物理空间大小为 10m×10m10\mathbb{m} \times 10\mathbb{m}10m×10m

Sg\mathbf{S}_gSg 表示为停车位真值集合,Sd\mathbf{S}_dSd 为检测结果集合,如果满足下列条件,则检测结果为真阳性。

∥(p1g−p1d,p2g−p2d)∥2<10\left\|\left(\mathbf{p}_{1}^{g}-\mathbf{p}_{1}^{d}, \mathbf{p}_{2}^{g}-\mathbf{p}_{2}^{d}\right)\right\|_{2}<10 (p1gp1d,p2gp2d)2<10


2.2 Results and Discussions

ps2.0PSV 数据集上的测试结果如下,同时作者还使用了FCN网络代替图网络,比较了标记点的相似性得分。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

2.3 Ablation study

下面是一些对照实验结果,比较了使用不同特征网络的检测性能和时间消耗,位置编码器、图神经网络层数和注意力头个数影响,以及损失函数权重影响。

从中可以看到,标记点损失权重对最终影响是比较大的;不过在ps2.0数据集上各种特征提取网络的检测性能都已经很高了,后续还需要在更大的数据集上进行测试。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/439591.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解3D物体检测模型 SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation

本文对基于激光雷达的无监督域自适应3D物体检测进行了研究&#xff0c;论文已收录于 ICCV2021。 在Waymo Domain Adaptation dataset上&#xff0c;作者发现点云质量的下降是3D物件检测器性能下降的主要原因。因此论文提出了Semantic Point Generation (SPG)方法&#xff0c;首…

Waymo研发经理:《自动驾驶感知前沿技术介绍》

Waymo研发经理|自动驾驶感知前沿技术介绍这是Waymo研发经理&#xff08;VoxelNet作者&#xff09;的一个最新分享报告&#xff1a;《自动驾驶感知前沿技术介绍》。在这份报告里&#xff0c;介绍了Waymo在自动驾驶感知中五个研究方向的最新成果。 1. Overview of the autonomous…

几种常见软件过程模型的比较

瀑布模型 瀑布模型&#xff08;经典生命周期&#xff09;提出了软件开发的系统化的、顺序的方法。其流 程从用户需求规格说明开始&#xff0c;通过策划、建模、构建和部署的过程&#xff0c;最终提供一 个完整的软件并提供持续的技术支持。 优点&#xff1a; 1. 强调开发的…

两篇基于语义地图的视觉定位方案:AVP-SLAM和RoadMap

本文介绍两篇使用语义地图进行视觉定位的论文&#xff0c;两篇论文工程性很强&#xff0c;值得一学。 AVP-SLAM是一篇关于自动泊车的视觉定位方案&#xff0c;收录于 IROS 2020。论文链接为&#xff1a;https://arxiv.org/abs/2007.01813&#xff0c;视频链接为&#xff1a;ht…

【51Nod - 1270】数组的最大代价(dp,思维)

题干&#xff1a; 数组A包含N个元素A1, A2......AN。数组B包含N个元素B1, B2......BN。并且数组A中的每一个元素Ai&#xff0c;都满足1 < Ai < Bi。数组A的代价定义如下&#xff1a; &#xff08;公式表示所有两个相邻元素的差的绝对值之和&#xff09; 给出数组B&…

一步步编写操作系统 56 门、调用门与RPL序 1

小弟多次想把调用门和RPL分开单独说&#xff0c;但几次尝试都没有成功&#xff0c;我发现它们之间是紧偶合、密不可分&#xff0c;RPL的产生主要是为解决系统调用时的“越权”问题&#xff0c;系统调用的实现方式中&#xff0c;以调用门和中断门最为适合。由于以后我们将用中断…

自动驾驶纯视觉3D物体检测算法

视频链接&#xff1a;https://www.shenlanxueyuan.com/open/course/112 这是Pseudo-LiDAR作者最近做的一个分享报告&#xff1a;《Pseudo-LiDAR&#xff1a;基于相机的3D物体检测算法》。在这份报告里&#xff0c;作者主要介绍了博士期间的研究成果&#xff1a;基于深度学习的…

一步步编写操作系统 57 门、调用门与RPL序 2

接上文&#xff1a; 提供了4种门的原因是&#xff0c;它们都有各自的应用环境&#xff0c;但它们都是用来实现从低特权级的代码段转向高特权级的代码段&#xff0c;咱们这里也只讨论有关特权级的功用&#xff1a; 1.调用门 call和jmp指令后接调用门选择子为参数&#xff0c;以…

Coursera自动驾驶课程第15讲:GNSS and INS Sensing for Pose Estimation

在上一讲《Coursera自动驾驶课程第14讲&#xff1a;Linear and Nonlinear Kalman Filters》 我们学习了卡尔曼滤波相关知识&#xff0c;包括&#xff1a;线性卡尔曼滤波&#xff08;KF&#xff09;、扩展卡尔曼滤波&#xff08;EKF&#xff09;、误差卡尔曼滤波&#xff08;ES-…

详解车道线检测数据集和模型 VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection

本文介绍一个新的车道线数据集 VIL-100 和检测模型 MMA-Net&#xff0c;论文已收录于 ICCV2021&#xff0c;重点是理解本文提出的 LGMA 模块&#xff0c;用于聚合局部和全局记忆特征。 论文链接&#xff1a;https://arxiv.org/abs/2108.08482 项目链接&#xff1a;https://gi…

七天入门图像分割(1):图像分割综述

最近在研究自动驾驶视觉语义地图构建&#xff0c;因为要使用到语义分割技术&#xff0c;趁此机会学习了百度飞桨的图像分割课程&#xff0c;课程蛮好的&#xff0c;收获也蛮大的。 课程地址&#xff1a;https://aistudio.baidu.com/aistudio/course/introduce/1767 1. 课程简要…

一步步编写操作系统 59 cpu的IO特权级1

在保护模式下&#xff0c;处理器中的“阶级”不仅体现在数据和代码的访问&#xff0c;还体现在指令中。 一方面将指令分级的原因是&#xff0c;有些指令的执行对计算机有着严重的影响&#xff0c;它们只有在0特权级下被执行&#xff0c;因此被称为特权指令&#xff08;Privile…

重读经典:《ImageNet Classification with Deep Convolutional Neural Networks》

9年后重读深度学习奠基作之一&#xff1a;AlexNet【下】【论文精读】这两天偶然间在B站看了李沐博士对AlexNet论文的重新解读&#xff0c;收获满满。AlexNet是当今深度学习浪潮奠基作之一&#xff0c;发表在2012年。在视频中&#xff0c;李沐博士主要是分享了他的三步法快速读论…

一步步编写操作系统 60 cpu的IO特权级2 什么是驱动程序

用户程序可以在由操作系统加载时通过指定整个eflags设置&#xff0c;操作系统如何设置自己的IOPL呢&#xff0c;即使内核IOPL为0也得写进去eflags寄存器中才生效。可惜的是&#xff0c;没有直接读写eflags寄存器的指令&#xff0c;不过可以通过将栈中数据弹出到eflags寄存器中来…

详解惯性导航论文 RINS-W: Robust Inertial Navigation System on Wheels

本文介绍一篇惯性导航定位论文 RINS-W&#xff0c;论文发表于 IROS2019。在本论文中作者提出了仅使用一个IMU进行长时间惯性导航的方法。方法主要包括两个部分&#xff1a; 检测器使用循环神经网络来检测IMU的运动状况&#xff0c;如零速或零横向滑移&#xff1b;使用Invarian…

一步步编写操作系统 61 任务状态段 TSS

I/O位图是位于TSS中的&#xff0c;它可以存在也可以不存在&#xff0c;它只是用来设置对某些特定端口的访问&#xff0c;没有它的话便默认为禁止访问所有端口。正是由于它可有可用&#xff0c;所以TSS的段界限TSS limit&#xff08;即实际大小-1&#xff09;并不固定。当TSS中不…

重读经典:《Deep Residual Learning for Image Recognition》

ResNet论文逐段精读【论文精读】这是李沐博士论文精读的第二篇论文&#xff0c;这次精读的论文是ResNet。ResNet 是 CVPR2016 的最佳论文&#xff0c;目前谷歌学术显示其被引用数已经达到了90000。 ResNet论文链接为&#xff1a;https://arxiv.org/abs/1512.03385。 1.第一遍 …

【CodeForces - 1131F 】Asya And Kittens(并查集,思维)

题干&#xff1a; Asya loves animals very much. Recently, she purchased nn kittens, enumerated them from 11 and nn and then put them into the cage. The cage consists of one row of nncells, enumerated with integers from 11 to nn from left to right. Adjacent…

详解道路标记数据集 CeyMo: See More on Roads -- A Novel Benchmark Dataset for Road Marking Detection

本文介绍一个新的道路标记检测数据集&#xff0c;论文收录于 WACV2022。Ceymo数据集总共包含2887张图片&#xff0c;标注了11类共4706个道路标记实例&#xff0c;图片分辨率为 192010801920\times108019201080。其中&#xff0c;对于每一个道路标记实例&#xff0c;作者采用了三…

动手学无人驾驶(7):车道线检测

最近在研究视觉语义地图&#xff0c;需要进行车道线检测&#xff0c;发现这篇车道线检测论文效果蛮好的 &#xff08;Ultra Fast Structure-aware Deep Lane Detection&#xff09;。论文作者在知乎上已经介绍过了&#xff1a;https://zhuanlan.zhihu.com/p/157530787&#xff…