【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 28 日论文合集)

文章目录

  • 一、检测相关(11篇)
    • 1.1 Adaptive Segmentation Network for Scene Text Detection
    • 1.2 EFLNet: Enhancing Feature Learning for Infrared Small Target Detection
    • 1.3 MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images
    • 1.4 NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
    • 1.5 The detection and rectification for identity-switch based on unfalsified control
    • 1.6 GADER: GAit DEtection and Recognition in the Wild
    • 1.7 A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos
    • 1.8 Robust Detection, Assocation, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations
    • 1.9 Towards multi-modal anatomical landmark detection for ultrasound-guided brain tumor resection with contrastive learning
    • 1.10 Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision
    • 1.11 A Weakly Supervised Segmentation Network Embedding Cross-scale Attention Guidance and Noise-sensitive Constraint for Detecting Tertiary Lymphoid Structures of Pancreatic Tumors

一、检测相关(11篇)

1.1 Adaptive Segmentation Network for Scene Text Detection

一种用于场景文本检测的自适应分割网络

https://arxiv.org/abs/2307.15029

在这里插入图片描述
受深度卷积分割算法的启发,场景文本检测器稳步突破数据集的性能上限。然而,这些方法经常遇到阈值选择瓶颈,并且在具有极端纵横比的文本实例上具有较差的性能。在本文中,我们提出了自动学习区分分割阈值,区分文本像素从背景像素的分割为基础的场景文本检测器,然后进一步减少耗时的手动参数调整。此外,我们设计了一个全局信息增强的特征金字塔网络(GE-FPN)捕获文本实例与宏大小和极端宽高比。在GE-FPN之后,我们引入级联优化结构来进一步细化文本实例。最后,结合本文提出的阈值学习策略和文本检测结构,设计了一个自适应分割网络(ASNet)用于场景文本检测。大量的实验表明,所提出的ASNet可以实现国家的最先进的性能在四个文本检测基准,即,ICDAR 2015、MSRA-TD500、ICDAR 2017 MLT和CTW1500。烧蚀实验也验证了我们的贡献的有效性。

1.2 EFLNet: Enhancing Feature Learning for Infrared Small Target Detection

EFLNet:增强红外小目标检测的特征学习

https://arxiv.org/abs/2307.14723

在这里插入图片描述
单帧红外小目标检测被认为是一项具有挑战性的任务,由于目标与背景的极度不平衡,包围盒回归算法对红外小目标极其敏感,并且小目标信息容易在高层语义层丢失。在本文中,我们提出了一个增强的特征学习网络(EFLNet)的基础上YOLOv7框架来解决这些问题。首先,我们注意到红外图像中目标和背景之间存在着极不平衡,这使得模型更加关注背景特征,导致漏检。为了解决这个问题,我们提出了一个新的自适应阈值焦点损失函数,自动调整损失的重量,迫使模型分配更多的关注目标功能。其次,我们引入了归一化高斯Wasserstein距离,以减轻模型收敛的困难所造成的极端敏感的包围盒回归红外小目标。最后,我们将一个动态头机制到网络中,使每个语义层的相对重要性的自适应学习。实验结果表明,我们的方法可以实现更好的性能相比,最先进的基于深度学习的方法在红外小目标的检测性能。

1.3 MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images

MIM-OOD:用于医学图像非分布检测的生成式掩模图像建模

https://arxiv.org/abs/2307.14701

在这里插入图片描述
无监督分布外(OOD)检测在于仅利用在健康解剖结构的图像上训练的模型来识别图像中的异常区域。一种已建立的方法是对图像进行标记化,并用自回归(AR)模型对标记的分布进行建模。AR模型用于1)识别异常令牌和2)具有分布中令牌的绘制中异常表示。然而,AR模型在推理时是缓慢的,并且容易出现错误累积问题,这对OOD检测性能产生负面影响。我们的新方法MIM-OOD克服了速度和错误累积问题,通过用两个特定于任务的网络替换AR模型:1)被优化为识别异常标记的Transformer,以及2)被优化为使用掩码图像建模(MIM)来绘制异常标记的变换器。我们对大脑MRI异常的实验表明,MIM-OOD大大优于AR模型(DICE 0.458 vs 0.301),同时实现了近25倍的加速(9.5s vs 244 s)。

1.4 NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

NERF-DET:用于多视点三维物体检测的学习几何感知体积表示

https://arxiv.org/abs/2307.14620

在这里插入图片描述
我们提出了NeRF-Det,一种新的室内三维检测方法,以RGB图像作为输入。与现有的室内3D检测方法难以对场景几何形状进行建模不同,我们的方法以端到端的方式使用NeRF来明确估计3D几何形状,从而提高3D检测性能。具体来说,为了避免与NeRF的每场景优化相关联的显著额外延迟,我们引入足够的几何先验来增强NeRF-MLP的可推广性。此外,我们巧妙地连接检测和NeRF分支通过一个共享的MLP,使一个有效的适应NeRF检测和产生几何感知的体积表示的3D检测。我们的方法在ScanNet和ARKITScenes基准测试中分别优于最先进的3.9 mAP和3.1 mAP。我们提供了广泛的分析,以阐明NeRF-Det是如何工作的。由于我们的联合训练设计,NeRF-Det能够很好地推广到看不见的场景,用于对象检测,视图合成和深度估计任务,而不需要每个场景的优化。代码可在\url{https://github.com/facebookresearch/NeRF-Det}获得。

1.5 The detection and rectification for identity-switch based on unfalsified control

基于防伪控制的身份切换检测与纠错

https://arxiv.org/abs/2307.14591

在这里插入图片描述
多目标跟踪(MOT)的目的是对视频中检测到的目标进行连续跟踪和识别。目前,大多数用于多目标跟踪的方法对运动信息进行建模,并将其与外观信息相结合来确定和跟踪目标。针对多目标跟踪中的身份切换问题,提出了一种基于非伪造控制的多目标跟踪方法。我们建立了一系列的外观信息变化的轨迹在跟踪过程中,并设计了一个检测和整流模块,专门用于ID开关的检测和恢复。我们还提出了一个简单而有效的策略,以解决在数据关联过程中的外观信息的模糊匹配的问题。公开的MOT数据集上的实验结果表明,该跟踪器具有良好的有效性和鲁棒性,在处理由遮挡和快速运动引起的跟踪错误。

1.6 GADER: GAit DEtection and Recognition in the Wild

Gader:野外步态检测与识别

https://arxiv.org/abs/2307.14578

在这里插入图片描述
步态识别具有基于行走模式而不是颜色信息来鲁棒地识别主体的前景。虽然先前的方法对于策划的室内场景表现良好,但是它们显著地阻碍了在不受约束的情况下的适用性,例如,户外远距离场景我们提出了一个端到端的步态检测和识别(GADER)算法,在具有挑战性的户外场景中的人体认证。具体而言,GADER利用双螺旋签名来检测人体运动的片段,并采用了一种新的步态识别方法,该方法通过从辅助RGB识别模型中提取来学习表示。在推理时,GADER仅使用轮廓模态,但受益于更鲁棒的表示。在室内和室外数据集上的大量实验表明,该方法在步态识别和验证方面优于最先进的方法,在无约束的长距离场景中有20.6%的显著改善。

1.7 A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos

一种记忆增强的驾驶视频无监督交通事故检测多任务协作框架

https://arxiv.org/abs/2307.14575

在这里插入图片描述
识别驾驶视频中的交通事故对于确保自动驾驶和驾驶辅助系统的安全至关重要。为了解决驾驶事件的长尾分布所引起的潜在危险,现有的交通事故检测(TAD)方法主要依赖于无监督学习。然而,由于摄像机的快速移动和驾驶场景中的动态场景,TAD仍然具有挑战性。现有的无监督TAD方法主要依赖于单个借口任务,即,基于外观或未来的对象定位任务,以检测事故。然而,基于外观的方法很容易受到干扰的快速移动的相机和光照的变化,这显着降低了交通事故检测的性能。基于未来对象定位的方法可能无法捕获视频帧中的外观变化,使得难以检测涉及自我的事故(例如,失去自我车辆的控制)。在本文中,我们提出了一种新的内存增强的多任务协作框架(MAMTCF)在驾驶视频中的无监督交通事故检测。与以往的方法不同,我们的方法可以更准确地检测自我参与和非自我事故,同时建模的外观变化和对象运动的视频帧,通过光流重建和未来的对象定位任务的合作。此外,我们引入了一个内存增强的运动表示机制,以充分探索不同类型的运动表示之间的相互关系,并利用存储在内存中的正常流量模式的高层次功能,以增强运动表示,从而扩大从异常的差异。最近发表的大规模数据集上的实验结果表明,我们的方法实现了更好的性能相比,以前的国家的最先进的方法。

1.8 Robust Detection, Assocation, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations

车灯的稳健检测、关联和定位:一种基于上下文的级联CNN方法和评估

https://arxiv.org/abs/2307.14571

在这里插入图片描述
重要的下游安全自主驾驶任务需要车辆灯光检测,例如预测车辆的灯光状态以确定车辆是否正在变道或转弯。当前,许多车灯检测器使用单级检测器,其预测边界框以与车辆实例解耦的方式识别车灯。在本文中,我们提出了一种方法,用于检测车辆的光给定的上游车辆检测和近似的可见光的中心。我们的方法预测与每个车灯相关联的四个近似角。我们实验了CNN架构,数据增强和上下文预处理方法,旨在减少周围车辆的混乱。我们实现了一个平均距离误差从地面真实角的5.09像素,约17.24%的大小,平均车灯。我们在LISA Lights数据集上训练和评估我们的模型,使我们能够在各种各样的车灯形状和照明条件下彻底评估我们的车灯角点检测模型。我们建议,该模型可以集成到一个管道与车辆检测和车灯中心检测,使一个完整的形成车灯检测网络,有价值的轨迹信息信号在驾驶场景中识别。

1.9 Towards multi-modal anatomical landmark detection for ultrasound-guided brain tumor resection with contrastive learning

基于对比学习的超声引导下脑肿瘤切除多模式解剖标志检测

https://arxiv.org/abs/2307.14523

在这里插入图片描述
医学扫描之间的同源解剖标志有助于各种临床应用中的图像配准质量的定量评估,例如用于超声引导的脑肿瘤切除术中的组织移位校正的MRI超声配准。虽然手动识别MRI和超声(US)之间的标志对极大地促进了任务的不同配准算法的验证,但该过程需要大量的专业知识、劳动力和时间,并且可能易于发生评估者间和评估者内的不一致。到目前为止,已经提出了许多传统和机器学习方法用于解剖标志检测,但它们主要集中在单模态应用。不幸的是,尽管有临床需要,但很少尝试模态间/对比标志检测。因此,我们提出了一种新的对比学习框架,以检测在神经外科中MRI和术中US扫描之间的相应标志。具体而言,联合训练两个卷积神经网络以编码MRI和US扫描中的图像特征,以帮助匹配包含MRI中的相应标志的US图像块。我们开发和验证的技术使用公共RESECT数据库。平均标志点检测精度为5.88 ± 4.79 mm,而SIFT特征为18.78 ± 4.77 mm,所提出的方法首次为神经外科应用中的MRI-US标志点检测提供了有希望的结果。

1.10 Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision

技术说明:ShinyAnimalCV:开源的基于云的Web应用程序,用于使用计算机视觉对动物进行对象检测、分割和三维可视化

https://arxiv.org/abs/2307.14487

在这里插入图片描述
计算机视觉(CV)是一种非侵入性且具有成本效益的技术,通过及时和个性化的动物护理实现优化决策,促进了精准畜牧业的发展。经济实惠的二维和三维摄像头传感器的可用性,与各种机器学习和深度学习算法相结合,为改善畜牧业生产系统提供了宝贵的机会。然而,尽管公共领域中有各种CV工具,但将这些工具应用于动物数据可能是具有挑战性的,通常需要用户具有编程和数据分析技能,以及访问计算资源。此外,精准畜牧业的快速扩张正在创造越来越多的需要教育和训练动物科学专业学生的CV。这给教育工作者带来了有效地演示CV中涉及的复杂算法的挑战。因此,本研究的目的是开发ShinyAnimalCV,一个开源的基于云的Web应用程序。该应用程序提供了一个用户友好的界面,用于执行CV任务,包括对象分割,检测,三维表面可视化,提取二维和三维形态特征。应用程序中包括使用顶视图动物数据的九个预训练CV模型。ShinyAnimalCV已使用云计算平台在线部署。ShinyAnimalCV的源代码可在GitHub上获得,以及使用自定义数据训练CV模型和本地部署ShinyAnimalCV的详细文档,以允许用户充分利用应用程序的功能。ShinyAnimalCV可以为动物科学界的CV研究和教学做出贡献。

1.11 A Weakly Supervised Segmentation Network Embedding Cross-scale Attention Guidance and Noise-sensitive Constraint for Detecting Tertiary Lymphoid Structures of Pancreatic Tumors

嵌入跨尺度注意引导和噪声敏感约束的弱监督分割网络检测胰腺肿瘤的三级淋巴结构

https://arxiv.org/abs/2307.14603

在这里插入图片描述
胰腺病理图像上三级淋巴样结构(TLSs)的存在是胰腺肿瘤的重要预后指标。因此,对胰腺病理图像进行TLSs检测对胰腺肿瘤患者的诊断和治疗具有重要意义。然而,基于深度学习的全监督检测算法通常需要大量的人工标注,耗时耗力。在本文中,我们的目标是通过提出一个弱监督分割网络检测的Few-Shot学习的方式的TLS。我们首先通过结合用于核分割的预训练模型和用于淋巴细胞核识别的域对抗网络来获得淋巴细胞密度图。然后,我们建立了一个跨尺度的注意力引导机制,通过共同学习的粗尺度功能,从原始的组织病理学图像和细尺度功能,从我们设计的淋巴细胞密度的注意。通过在训练过程中嵌入符号距离函数损失来引入噪声敏感约束,以减少微小的预测误差。两个收集的数据集上的实验结果表明,我们提出的方法显着优于国家的最先进的基于分割的算法在TLS检测精度。此外,我们应用我们的方法来研究TLSs密度和胰周血管侵犯之间的一致性关系,并获得一些临床统计学结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/21442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uni-app:实现列表单选功能

效果图&#xff1a; 核心解析&#xff1a; 一、 <view class"item_all" v-for"(item, index) in info" :key"index"><view classposition parameter-info text-over :classitem.checked?"checked_parameter":""…

C++、python双语言弹窗教程与对比

Messagebox弹窗 MessageBox指的是显示一个模态对话框&#xff0c;其中包含一个系统图标、 一组按钮和一个简短的特定于应用程序消息&#xff0c;如状态或错误的信息。消息框中返回一个整数值&#xff0c;该值指示用户单击了哪个按钮。 例子&#xff1a; 本文介绍了用C、Pytho…

Java对象创建回收全过程

目录 1 前言 2 Java对象创建 2.1 类加载检查 2.1.1 谁来加载 2.1.2 如何加载 2.2 分配内存 2.3 初始化零值 2.4 设置对象头 2.5 执行clinit 3 对象回收 4 补充Tomcat打破双亲委派机制 在讲java创建之前,我们先来了解下Java虚拟机内存组成,当Java虚拟机启动后,会…

Android 获取网络连接状态新方法

一. 问题背景 Android12上&#xff0c;有的app模块判断当前网络的类型和连接状态时&#xff0c;还是使用的旧的API&#xff0c;导致返回的结果不准确&#xff0c;影响代码逻辑判断&#xff0c;本篇文章就这一问题&#xff0c;整理一下判断网络类型和连接状态的新方法。 二. 原因…

JVM基础篇-本地方法栈与堆

JVM基础篇-本地方法栈与堆 本地方法栈 什么是本地方法? 本地方法即那些不是由java层面实现的方法&#xff0c;而是由c/c实现交给java层面进行调用&#xff0c;这些方法在java中使用native关键字标识 public native int hashCode()本地方法栈的作用? 为本地方法提供内存空…

新手入门吉他买什么好?千元内VEAZEN费森VZ200和恩雅X1pro综合评测,你会选新型材质HPL还是传统木吉他?

千元内入门吉他少不了VEAZEN费森VZ200单板系列和恩雅X1 PRO系列这两款热门系列&#xff0c;最近很多初学者朋友来私信&#xff0c;咨询这两款琴有什么优缺点&#xff0c;哪一款更值得初学者选购&#xff0c;那么今天&#xff0c;就以它们为本期的评测主角&#xff0c;全方位评测…

基于ARM+FPGA的驱控一体机器人控制器设计

目前市场上工业机器人&#xff0c;数控机床等多轴运动控制系统普遍采用运动控制器加 伺服驱动器的分布式控制方式。在这种控制方式中&#xff0c;控制器一方面完成人机交互&#xff0c;另 一方面进行 NC 代码的解释执行&#xff0c;插补运算&#xff0c;继而将计算出来的位…

vue v-slot指令

目录 定义语法使用场景场景一场景二场景三tips只有一个默认插槽时 定义 在Vue中&#xff0c; v-slot 指令用于定义插槽的模板内容。它用于在父组件中传递内容到子组件中的插槽。 v-slot 指令可以用于 标签或组件标签上&#xff0c;以便在子组件中使用插槽。 语法 使用 v-slo…

一位年薪50W的测试被开除,回怼的一番话,令人沉思

一位年薪35W测试工程师被开除回怼道&#xff1a;“反正我有技术&#xff0c;在哪不一样” 一技傍身&#xff0c;万事不愁&#xff0c;当我们掌握了一技之长后&#xff0c;在职场上说话就硬气了许多&#xff0c;不用担心被炒&#xff0c;反过来还可以炒了老板&#xff0c;这一点…

MVC配置原理

如果你想保存springboot的mvc配置并且还想自己添加自己的配置就用这个。 视图解析器原理&#xff0c;它会从IOC容器里获取配置好视图解析器的配置类里的视图解析器集合&#xff0c; 然后遍历集合&#xff0c;生成一个一个的视图对象&#xff0c;放入候选 视图里&#xff0c;…

MQTT协议详解「概念、特性、版本及作用」

MQTT&#xff08;Message Queuing Telemetry Transport&#xff0c;消息队列遥测传输&#xff09;是ISO标准下基于发布/订阅方式的轻量级消息协议。MQTT通常使用TCP / IP&#xff08;传输控制协议/Internet协议&#xff09;作为其传输&#xff0c;但也可以使用其他双向传输。MQ…

海外版金融理财系统源码 国际投资理财系统源码 项目投资理财源码

海外版金融理财系统源码 国际投资理财系统源码 项目投资理财源码

8.3一日总结

1.远程仓库的使用 a.克隆远程仓库 1>.在桌面克隆远程仓库 git clone 仓库名 2>.修改仓库内容 3>添加目录 git add. 4>提交: git commit -m 完成登录功能 5>推送提交远程仓库 : git push origin master -u 6>更改推送:git push(简写形式) 需要先添加,再提交,最…

一文学透设计模式——工厂模式

工厂模式 概念 牛马人生公司最近开启了线上直播&#xff0c;直播中牛马人生公司宣称他们建造了一家世界上最为先进的工厂&#xff0c;任何人只要去到工厂面前&#xff0c;告诉工厂你要什么牌子的汽车&#xff0c;工厂就会给你一辆什么牌子的汽车。 这引起了粉丝朋友的注意&a…

stm32与上位机电脑间最快的通信方式是什么?

对于小型多关节机械臂的控制电路设计&#xff0c;选择合适的通信方式可以提高MCU与上位机之间的实时性。以下是一些在STM32上常用的通信方式&#xff0c;你可以根据你的具体需求选择适合的&#xff1a; 串口通信&#xff08;UART&#xff09;&#xff1a;串口通信是一种常见的…

opencv-34 图像平滑处理-2D 卷积 cv2.filter2D()

2D卷积是一种图像处理和计算机视觉中常用的操作&#xff0c;用于在图像上应用滤波器或卷积核&#xff0c;从而对图像进行特征提取、平滑处理或边缘检测等操作。 在2D卷积中&#xff0c;图像和卷积核都是二维的矩阵或数组。卷积操作将卷积核在图像上滑动&#xff0c;对每个局部区…

Netty学习(四)

文章目录 四. 优化与源码1. 优化1.1 扩展序列化算法jdk序列化与反序列化Serializer & AlgorithmConfigapplication.properties MessageCodecSharableMessage&#xff08;抽象类&#xff09; 测试序列化测试反序列化测试 1.2 参数调优1&#xff09;CONNECT_TIMEOUT_MILLIS2&…

ansible配置文件案例

案例一 控制主机上的普通用户控制受控主机 控制端1台&#xff0c;受控端两台 1.将两台受控主机添加到/etc/hosts文件中 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhos…

Qt5.13引入QtWebApp的模块后报错: error C2440: “reinterpret_cast”: 无法从“int”转换为“quintptr”

1、开发环境 Win10-64 qt5.13 msvc2015-64bit-release 2、报错 新建一个demo工程。 引入QtWebApp的httpserver、logging、templateengine三个模块后。 直接运行&#xff0c;&#xff0c;此时报错如下&#xff1a; E:\Qt5.13.1\install\5.13.1\msvc2015_64\include\QtCore…

Java 8 中使用 Stream 遍历树形结构

在实际开发中&#xff0c;我们经常会开发菜单&#xff0c;树形结构&#xff0c;数据库一般就使用父id来表示&#xff0c;为了降低数据库的查询压力&#xff0c;我们可以使用Java8中的Stream流一次性把数据查出来&#xff0c;然后通过流式处理&#xff0c;我们一起来看看&#x…