【计算机视觉前沿研究 热点 顶会】ECCV 2024中目标检测有关的论文

整值训练和尖峰驱动推理尖峰神经网络用于高性能和节能的目标检测

与人工神经网络(ANN)相比,脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于 SNN 的性能较差,目前的应用仅限于简单的分类任务。在这项工作中,我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。

当行人检测遇到多模式学习时:通才模型和基准数据集

近年来,利用不同传感器模式(如 RGB、 IR、 Depth、 LiDAR 和 Event)进行行人检测的研究受到越来越多的关注。然而,设计一个能够有效处理不同传感器模式的统一通用模型仍然是一个挑战。本文介绍了一种新的多通道感知的通用性模型MMPedestron。与以前只处理一个或一对特定通道输入的专家模型不同,MMPedestron 能够处理多个通道输入及其动态组合。

TCC-Det:弱监督 3D 检测的临时一致线索

准确的激光雷达点云目标检测是健壮、安全的自主驾驶和机器人应用的关键前提。当前训练 3D 对象检测器涉及手动注释大量训练数据的需要,这非常耗时且昂贵。因此,容易获得的带注释的训练数据量是有限的,而且这些带注释的数据集可能不包含边缘情况或其他罕见的实例,这仅仅是因为它们出现在如此小的数据集中的概率很低。在本文中,我们提出了一种不需要任何人工标注的方法,通过利用现有的视觉组件和我们周围世界的一致性来训练 3D 对象检测器。因此,该方法可以用于通过仅收集真实世界中的传感器记录来训练 3D 探测器,这是非常便宜的,并且允
许使用比传统的完全监督方法多一个数量级的数据进行训练。

CARB-Net:用于脆弱道路用户检测的摄像机辅助雷达网络

确保易受伤害的道路使用者的可靠感知对安全自动驾驶至关重要。雷达因其对恶劣天气的适应能力、成本效益、深度传感能力以及在自适应巡航控制中的既定作用而脱颖而出,成为一种有吸引力的传感器选择。然而,雷达有限的角度分辨率给目标识别带来了挑战,特别是在区分近距离目标方面。为了解决这一局限性,我们提出了基于相机的雷达网络(CARB-Net),这是一种新颖而高效的框架,它融合了相机的角度精度与雷达的稳健性和深度感知能力。

基于百分比的对象检测的生成模型的弱到强合成学习

视觉-语言(VL)模型通过利用来自网络的弱监督图像-文本对,在各种目标检测任务中被证明是非常有效的。然而,这些模型对可视对象的复杂组成(例如,属性、形状及其关系)表现出有限的理解,在给定复杂和多样化的语言查询的情况下导致显著的性能下降。虽然传统的方法试图通过使用文本域上的硬否定合成增强来增强VL 模型,但如果没有密集的图像-文本增强,其有效性仍然受到限制。本文提出了一种结构化合成数据生成方法来提高基于语言的目标检测的 VL 模型的成分理解能力,该方法在图像和文本域中生成密集配对的正负三元组(对象、文本描述、边界框)。

Grounding DINO: 通过定位预培训与 DINO 结合,以进行开放集对象检测

本文将变压器型探测器 Dino 与接地预训练相结合,开发了一种开放集合的目标探测器–Grounding DINO,它可以检测人类输入的任意目标,如类别名称或指代表达式。开集目标检测的关键解决方案是在闭集检测器中引入语言对开集概念进行泛化。为了有效地融合语言和视觉通道,我们在概念上将闭集检测器划分为三个阶段,并提出了一种紧密融合的解决方案,该方案包括特征增强器、语言引导的查询选择和用于跨通道融合的跨通道解码器。

解锁文本和视觉智慧:通过文本和图像的全面指导增强开放词汇 3D 对象检测

开放词汇表 3D 对象检测(OV-3DDET)是一项具有挑战性的任务,旨在定位和识别3D 场景中的对象,包括已见和以前未见的类别。在视觉和语言领域,有大量的训练数据可用于训练广义模型,而 3D 检测模型则受到训练数据稀缺的影响。尽管存在这一挑战,但蓬勃发展的视觉语言模型(VLMS)提供了宝贵的见解,可以指导 OV-3DDET 的学习过程。虽然已经做出了一些努力将 VLM 纳入 OV-3DDET 学习,但现有的方法往往不能在 3D 探测器和 VLM 之间建立全面的联系。在本文中,我们研究了 VLMS 在开放词汇 3D 检测任务中的应用。

一种基于扩散模型的目标检测的简单背景增强方法

在计算机视觉中,众所周知,缺乏数据多样性将损害模型的性能。在这项研究中,我们解决了增强数据集多样性问题的挑战,以利于各种下游任务,如对象检测和实例分割。我们提出了一种简单而有效的数据增强方法,通过利用生成模型的进步,特别是文本到图像合成技术,如稳定扩散。我们的方法专注于生成标记的真实图像的变体,通过修复来利用生成的对象和背景增强来增强现有的训练数据,而不需要额外的注释。我们发现背景增强尤其显著地提高了模型的稳健性和泛化能力。

利用众包注释进行对象检测的 Bayesian 检测器组合

在不受约束的图像中获取细粒度的对象检测注释是耗时、昂贵的,并且容易受到噪声的影响,尤其是在众包场景中。大多数先前的目标检测方法都假设有准确的标注;最近的一些工作研究了带有噪声的众包标注的目标检测,并在人工假设下对不同设置的不同合成众包数据集进行了评估。为了解决这些算法的局限性和评估的不一致性,我们首先提出了一种新的贝叶斯检测器组合(BDC)框架,以更有效地训练具有噪声的众包注释的对象检测器,具有独特的自动推断注释者的标签质量的能力。与以前的方法不同, BDC 与模型无关,不需要事先了解注释者的技能水平,并且可以与现有的对象检测模型无缝集成。

桥梁过去与未来:克服增量对象检测中的信息不对称

在增量对象检测中,知识提炼已被证明是缓解灾难性遗忘的一种有效方法。然而,以前的工作侧重于保存旧模型的知识,而忽略了图像可能同时包含来自过去、现在和未来阶段的类别。目标的共现使得优化目标在不同阶段不一致,因为前景目标的定义在不同阶段不同,这极大地限制了模型的性能。为了克服这一问题,我们提出了一种称为“过去和未来的桥梁”(BPF)的方法,它跨阶段对齐模型,确保一致的优化方向。

基于分组排名的损失用于目标检测器的高效训练

基于排序的损失函数,如平均精度损失和等级排序损失,在目标检测中优于广泛使用的基于分数的损失。这些损失函数更好地符合评估标准,具有更少的超参数,并针对正负类别之间的不平衡提供稳健性。然而,它们需要在正预测和负预测之间进行两两比较,从而引入了 O ( P N ) O_{(PN)} O(PN)的时间复杂性,这是令人望而却步的,因为 N N N通常很大。尽管它们有优势,但基于排名的损失的广泛采用因其高度的时间和空间复杂性而受到阻碍。在本文中,我们致力于提高基于排名的损失函数的效率。为此,我们提出了基于桶的排名损失,它可以减少成对比较的次数,从而降低时间复杂度。

IRSam:改进红外小目标检测的分段任意模型

最近提出的任意分段模型(Segment Anything Model, SAM)是自然图像分割领域的一项重大进展,表现出强大的零镜头性能,适用于各种下游图像分割任务。 然而,由于自然图像和红外图像之间存在明显的域差距,直接使用预先训练的 SAM 进行红外小目标检测(IRSTD)任务并不能取得令人满意的性能。与可见光相机不同,热像仪通过捕捉红外辐射来显示物体的温度分布。小目标通常会在其边界处显示出微妙的温度变化。针对这一问题,我们提出了 IRSTD 的 IRSAM 模型,该模型改进了 SAM 的编解码器结构,以更好地学习红外小目标的特征表示。

YOLOv 9:使用可编程梯度信息学习您想学习的内容

如今的深度学习方法关注的是如何设计最合适的目标函数,使模型的预测结果最接近地面真实。同时,必须设计一个合适的架构,以便于获取足够的信息来进行预测。现有的方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,会丢失大量信息。本文将深入研究数据在深度网络中传输时的数据丢失问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。

CLFF:开放词汇对象检测的连续潜在扩散

开放词汇对象检测(OVD)利用图像级线索来扩展区域建议的语言空间,从而促进对不同新奇类别的检测。最近的研究通过在区分范式中组合最小化对象-图像和对象-文本的差异来适应剪辑嵌入。然而,它们忽略了图像和文本对象之间的潜在分布和不一致,导致了视觉和语言子空间之间的错位分布。针对这一不足,我们探索了具有分布感知的高级生成范式,并在扩散模型的基础上提出了一种新的框架,称为连续潜在扩散(CLIFF),该框架概率地描述了对象、图像和文本潜在空间之间的连续分布转移。

将点投影到轴:通过点-轴表示的定向对象检测

本文介绍了航空图像中定向对象的点轴表示,如图 1 所示,强调了它的灵活性和几何直观性,包括两个关键组件:点和轴。 1)点描述对象的空间范围和轮廓,提供详细的形状描述。 2)轴定义了物体的主要方向,提供了对精确检测至关重要的基本方位线索。点轴表示分离了位置和旋转,解决了传统的基于包围盒的方法中经常遇到的损失不连续性问题。为了在不引入额外注释的情况下进行有效的优化,我们提出了用最大投影损失来指导点集学习,用跨轴损失来指导稳健的轴表示学习。

关系 DETR:探索对象检测的显式位置关系优先级

本文提出了一种提高检测变压器(DETR)收敛和性能的总体方案。我们从一个新的角度研究了变压器中的慢收敛问题,认为这是由于自我关注导致的,这种自我关注没有引入对投入的结构性偏见。为了解决这一问题,我们探索了将位置关系优先作为注意偏差来增强目标检测,并使用提出的定量宏观视觉相关(MC)度量来验证其统计意义。我们的方法称为 Relationship-DETR,它引入了一个编码器来构建位置关系嵌入,用于渐进式注意求精,将 DETR 的传统流水线扩展为对比关系流水线,以解决无重复预测和积极监督之间的冲突。(Page 393)

ECCV 2024论文合集PDF版

由于判断依据的差异,这篇博客可能无法全面地囊括您需要的论文。

下面的资料中收录并翻译了ECCV 2024所有论文的题目与摘要,它为您扫清了语言障碍,让您能够充分地利用碎片时间、随时随地跟踪计算机视觉与模式识别领域最前沿的研究。
ECCV 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/mbd-Zpqal5dx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/53061.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【CVPR‘24】DeCoTR:使用 2D 和 3D 注意力增强深度补全

DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions 中文解析摘要介绍方法方法3.1 问题设置3.2 使用高效的 2D 注意力增强基线3.3 3D中的特征交叉注意力点云归一化位置嵌入3.4 捕捉 3D 中的全局上下…

分享GoFly项目案例-降本增效数字化解决多仓库、动态仓库(车辆存储)、动态调调度、动态配送方案

前言 传统的生产原料企业在数字化转型中,需要到一个客户与产品配送(运输)管理及调度系统。系统要达到管理者可以看到产品数据,做业务的可以了解到货品库存、货品位置(可调度最近货品给客户)、货品配送情况…

给鼠标一个好看的指针特效 鼠标光标如何修改形状?

许多爱美的小伙伴们都想着如何给自己的电脑打扮一下,用各种各样的途径来美化我们的电脑。今天我们给大家分享一下,如何美化鼠标效果,给鼠标指针修改成一个非常好看的形状~ 一起来看几组鼠标的效果,小编我给大家做了个录屏&#x…

linux文件——用户缓冲区——概念深度探索、IO模拟实现

前言:本篇文章主要讲解文件缓冲区。 讲解的方式是通过抛出问题, 然后通过分析问题, 将缓冲区的概念与原理一步一步地讲解。同时, 本节内容在最后一部分还会带友友们模拟实现一下c语言的printf, fprintf接口&#xff0c…

OT安全零死角!Fortinet OT安全平台再升级

近日,专注推动网络与安全融合的全球网络安全领导者 Fortinet(NASDAQ:FTNT),宣布对旗下业界领先的OT安全平台进行新一轮全面升级,此次更新旨在深化安全组网与安全运营(SecOps)服务的功…

依托自研力量,给共享集群存储服务一个优选

YashanDB共享集群有三大关键组件,崖山集群服务(YCS)、崖山集群文件系统(YFS)、DB组件。上一篇共享集群系列文章《为何共享集群的高可用能力被频频称赞,它的机制有何不同?》深入解析了关键组件的…

NVIDIA RTX 50系列大爆料:功耗飙升600W,性能直逼RTX 4090 1.?倍,你准备好了吗?

在科技圈的万众瞩目下,知名硬件爆料大神Kopite7kimi再次为我们揭开了NVIDIA下一代GeForce RTX系列——“Blackwell”阵容的神秘面纱。这次,关于新显卡的功耗信息不再是模糊的概念,而是实实在在的数字,让人不禁对即将到来的性能飞跃…

ELK学习笔记(一)——使用K8S部署ElasticSearch8.15.0集群

一、下载镜像 #1、下载官方镜像 docker pull elasticsearch:8.15.0 #2、打新tag docker tag elasticsearch:8.15.0 192.168.9.41:8088/new-erp-common/elasticsearch:8.15.0 #3、推送到私有仓库harbor docker push 192.168.9.41:8088/new-erp-common/elasticsearch:8.15.0二、…

Python3.8绿色便携版安装版制作

Python 的绿色便携版有两种:官方 Embeddable 版本(嵌入式版);安装版制作的绿色版。Embeddable 版适用于需要将 Python 集成到其他应用程序或项目中的情况,它不包含图形界面的安装程序,只提供了 Python 解释器和必要的库…

C# 使用国密SM4加密解密

首先需第三方Nuget包:Portable.BouncyCastle (源码来自http://www.bouncycastle.org/csharp/),支持.NET 4,.NET Standard 2.0 目录 目录 使用BouncyCastle指定填充方案 零填充(Zero Padding) PKCS7填充…

排查SQL Server中的内存不足及其他疑难问题

文章目录 引言I DMV 资源信号灯资源信号灯 DMV sys.dm_exec_query_resource_semaphores( 确定查询执行内存的等待)查询性能计数器什么是内存授予?II DBCC MEMORYSTATUS 查询内存对象III DBCC 命令释放多个 SQL Server 内存缓存 - 临时度量值IV 等待资源池 %ls (%ld)中的内存…

Matlab R2022b使用Camera Calibrator工具箱张正友标定法进行相机标定附带标定前后对比代码

打开Camera Calibrator 在这添加你拍摄的图片 根据你每个方块的实际边长填写,我是15mm。 通俗一点,要k3就选3 Coefficients,否则为0;要p1、p2就选Tangential Distortion。然后进行计算。 可以点击右侧误差高的选中图像进行移…

vuex 基础使用

1、封装使用 在项目中的 Store 文件夹下创建 modules 文件夹 getters.js 和 index.js 然后如下: modules 文件夹下创建 一个 index.js 文件 存放需要的功能方法 // 写一个简单的菜单切换,获取当前点击菜单的索引 const Index {state: {menuIndex: 0,…

AI-Talk开发板之LED

一、说明 AI-Talk开发板上有一颗用户LED,连接在CH32 PA2管脚,低电平亮,高电平灭。 相关电路图如下: 二、工程 1、创建项目 进入snap/examples/目录,执行创建项目的命令: lisa zep create ? 选择sam…

C# 窗体中Control以及Invalidate,Update,Refresh三种重绘方法的区别

在 C# 中,Control 类是 Windows Forms 应用程序中所有控件的基类。它提供了控件的基本功能和属性,这些功能和属性被所有继承自 Control 类的子类所共享。这意味着 Control 类是构建 Windows Forms 应用程序中用户界面元素的基础。 以下是 Control 类的一…

【编程基础】跳房子

题目描述 奶牛们按不太传统的方式玩起了小孩子们玩的"跳房子"游戏。奶牛们创造了一个5x5的、由与x,y轴平行的数字组成的直线型网格,而不是用来在里面跳的、线性排列的、带数字的方格。然后他们熟练地在网格中的数字中跳:向前跳、向后跳、向左…

C# 特性与属性的区别

在 C# 中,"特性"(Attribute)和"属性"(Property)是两种不同的概念,它们在编程中扮演不同的角色: 属性(Property): 属性是类或结构的一部分…

第66期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

C++:关于反向迭代器的学习分享

前言: 小编仅是一位初学者,所以对于C的理解有限,文章大概率会出现表达不清楚可能也只是因为小编不知道如何更好表达,本文章仅作为一个学习的总结分享。 反向迭代器的概念 反向迭代器故名思意解释反向的迭代器,与正向迭…

golang context介绍

在 Go 语言中,context 是一个用于在 goroutines 之间传递上下文信息的包。它主要用于控制请求的生命周期和管理跨 API 边界的信号传递。以下是 context 的一些关键特性和用途: 1. 主要用途 取消信号:允许在多个 goroutines 中发出取消信号&…