【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)

文章目录

  • 一、检测相关(5篇)
    • 1.1 TALL: Thumbnail Layout for Deepfake Video Detection
    • 1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels
    • 1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
    • 1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections
    • 1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations
  • 二、分割|语义相关(5篇)
    • 2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes
    • 2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
    • 2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation
    • 2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation
    • 2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

一、检测相关(5篇)

1.1 TALL: Thumbnail Layout for Deepfake Video Detection

Tall:用于深度假冒视频检测的缩略图布局

https://arxiv.org/abs/2307.07494

在这里插入图片描述
deepfake对社会和网络安全的威胁日益严重,引起了公众的极大关注,人们越来越多地致力于deepfake视频检测这一关键话题。现有的视频方法实现了良好的性能,但计算密集型。本文介绍了一种简单而有效的策略–缩略图布局(TALL),该策略将视频片段转换为预定义的布局,以实现空间和时间依赖性的保留。具体地,连续帧在每个帧中的固定位置被掩蔽以改善泛化,然后调整大小为子图像并重新布置为预定义的布局作为缩略图。TALL是模型无关的,而且非常简单,只需修改几行代码即可。受Vision Transformers成功的启发,我们将TALL整合到Swin Transformer中,形成了一种高效的方法TALL-Swin。在数据集内和跨数据集上的大量实验验证了TALL和SOTA TALL-Swin的有效性和优越性。TALL-Swin在具有挑战性的跨数据集任务FaceForensics++ → \to Celeb-DF上实现了90.79 % \% % AUC。该代码可在https://github.com/rainy-xu/TALL4Deepfake获得。

1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels

基于量子核支持向量机的多光谱卫星云层检测

https://arxiv.org/abs/2307.07281

在这里插入图片描述
支持向量机(SVM)是一个成熟的分类器,有效地部署在一系列模式识别和分类任务。在这项工作中,我们考虑扩展经典的支持向量机与量子内核,并将其应用到卫星数据分析。提出了一种量子核支持向量机(混合支持向量机)的设计与实现。它包括量子核估计(QKE)程序与经典的SVM训练例程相结合。像素数据被映射到希尔伯特空间使用ZZ-特征映射作用于参数化的假设状态。优化参数以最大化内核目标对齐。我们探讨了卫星图像数据云检测问题,这是地面和星载卫星图像分析处理链中的关键步骤之一。在基准Landsat-8多光谱数据集进行的实验表明,模拟的混合SVM成功地分类卫星图像的准确性与经典的支持向量机。

1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection

基于骨架的视频异常检测多模运动条件扩散模型

https://arxiv.org/abs/2307.07205

在这里插入图片描述
异常是罕见的,因此异常检测通常被框定为一类分类(OCC),即只接受过正常生活训练领先的OCC技术将正常运动的潜在表示限制在有限的体积内,并将外部的任何异常检测为异常,这令人满意地解释了异常的开放性。但是常态具有相同的开集性质,因为人类可以用几种方式执行相同的动作,这是领先的技术所忽视的。我们提出了一种新的生成模型的视频异常检测(VAD),它假设正常和异常是多模态的。我们认为骨架表示和利用国家的最先进的扩散概率模型,以产生多模态未来的人类构成。我们贡献了一个新的空调上的人过去的运动,并利用改进的模式覆盖能力的扩散过程中产生不同的,但似乎合理的未来运动。在对未来模式进行统计聚合时,当所生成的运动集合与实际未来不相关时,检测到异常。我们在4个已建立的基准上验证我们的模型:UBnormal、HR-UBnormal、HR-STC和HR-Avenue,广泛的实验超越了最先进的结果。

1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections

基于带跳连接的卷积神经网络的脑肿瘤检测

https://arxiv.org/abs/2307.07503

在这里插入图片描述
在本文中,我们提出了不同的卷积神经网络(CNN)的架构,使用磁共振成像(MRI)技术分析和分类的良性和恶性类型的脑肿瘤。应用不同的CNN架构优化技术,例如网络的加宽和加深以及添加跳过连接,以提高网络的准确性。结果表明,这些技术的子集可以明智地用于优于用于相同目的的基线CNN模型。

1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations

COOpD:重新制定胸部CT扫描的COPD分类作为使用对比表示法的异常检测

https://arxiv.org/abs/2307.07254

在这里插入图片描述
异质性疾病的分类是具有挑战性的,由于其复杂性,多变的症状和影像学表现。慢性阻塞性肺疾病(COPD)就是一个很好的例子,尽管是第三大死亡原因,但仍被诊断不足。其稀疏,弥漫和异构的计算机断层扫描的外观挑战监督二进制分类。我们将COPD二元分类重新表述为异常检测任务,提出cOOpD:异质病理区域被检测为来自正常同质肺区域的分布外(OOD)。为此,我们采用自监督对比借口模型学习未标记肺区域的表示,可能捕获患病和健康未标记区域的特定特征。生成模型然后学习健康表示的分布,并将异常(源于COPD)识别为偏差。通过汇总区域OOD评分获得患者水平评分。我们表明,cOOpD在两个公共数据集上实现了最佳性能,与以前的监督最先进的技术相比,AUROC增加了8.2%和7.7%。此外,cOOpD产生可解释的空间异常图和患者水平的分数,我们证明这在识别进展早期的个体中具有额外的价值。在人工设计的真实世界患病率设置中的实验进一步支持异常检测是解决coro分类的有力方式。

二、分割|语义相关(5篇)

2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes

SynTable:一种用于杂乱桌面场景不可见对象非模态实例分割的合成数据生成流水线

https://arxiv.org/abs/2307.07333

在这里插入图片描述
在这项工作中,我们提出了SynTable,一个统一和灵活的Python数据集生成器,使用NVIDIA的Isaac Sim Replicator Composer构建,用于生成高质量的合成数据集,用于看不见的对象amodal实例分割杂乱桌面场景。我们的数据集生成工具可以渲染包含对象网格、材质、纹理、光照和背景的复杂3D场景。元数据,如模态和模态实例分割掩模,遮挡掩模,深度图,边界框和材料属性,可以生成,以自动注释根据用户的要求的场景。我们的工具消除了在数据集生成过程中手动标记的需要,同时确保数据集的质量和准确性。在这项工作中,我们讨论了我们的设计目标,框架体系结构,和我们的工具的性能。我们演示了使用光线跟踪使用SynTable生成的样本数据集来训练最先进的模型UOAIS-Net。结果表明,显着改善的性能,在模拟到真实的传输时,OSD-Amodal数据集进行评估。我们提供这个工具作为一个开源的,易于使用的,逼真的数据集生成器,用于推进深度学习和合成数据生成的研究。

2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation

基于自监督学习的曲线目标分割算法

https://arxiv.org/abs/2307.07245

在这里插入图片描述
曲线对象分割对于许多应用是关键的。然而,手动注释曲线对象是非常耗时和容易出错的,产生现有的监督方法和域自适应方法的可用注释数据集不足。本文提出了一种自监督曲线对象分割方法,该方法从分形和未标记图像(FreeCOS)中学习鲁棒性和独特性。主要贡献包括一个新的分形FDA合成(FFS)模块和几何信息对齐(GIA)的方法。FFS基于参数分形L系统生成曲线结构,并将生成的结构集成到未标记的图像中,以通过傅立叶域自适应获得合成训练图像。GIA通过比较给定像素的强度顺序与其附近邻居的值来减少合成图像和未标记图像之间的强度差异。这样的图像对准可以明确地去除对绝对强度值的依赖性,并且增强在合成图像和真实图像两者中共同的固有几何特性。此外,GIA通过预测空间自适应损失(PSAL)和曲线掩模对比损失(CMCL)对齐合成图像和真实图像的特征。在四个公共数据集上的广泛实验结果,即,XCAD,DRIVE,STARE和CrackTree表明,我们的方法优于最先进的无监督方法,自监督方法和传统方法的大幅度提高。该工作的源代码可在https://github.com/TY-Shi/FreeCOS上获得。

2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation

自适应区域选择在整体幻灯片图像语义分割中的主动学习

https://arxiv.org/abs/2307.07168

在这里插入图片描述
为了训练监督分割模型而在像素级注释组织学千兆像素大小的全载玻片图像(WSIs)的过程是耗时的。基于区域的主动学习(AL)涉及在有限数量的注释图像区域上训练模型,而不是请求整个图像的注释。这些注释区域被迭代地选择,其目标是在最小化注释区域的同时优化模型性能。区域选择的标准方法评估指定大小的所有正方形区域的信息量,然后选择特定数量的信息量最大的区域。我们发现该方法的效率高度依赖于AL步长的选择(即,区域大小和每个WSI的所选区域的数量的组合),以及次优的AL步长可能导致冗余的注释请求或膨胀的计算成本。本文介绍了一种新的技术,用于自适应地选择注释区域,减轻对这个AL超参数的依赖。具体来说,我们动态地确定每个区域,首先确定一个信息区域,然后检测其最佳的边界框,而不是选择一个统一的预定义的形状和大小的区域,在标准方法。我们使用公共CAMELYON16数据集上的乳腺癌转移分割任务来评估我们的方法,并表明它在各种AL步长中始终实现比标准方法更高的采样效率。只有2.6%的组织区域注释,我们实现了完整的注释性能,从而大大降低了注释WSI数据集的成本。源代码可在https://github.com/DeepMicroscopy/AdaptiveRegionSelection获得。

2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation

AnyStar:域随机化通用星凸3D实例分割

https://arxiv.org/abs/2307.07044

在这里插入图片描述
星凸形状以细胞核、结节、转移瘤和其他单位的形式出现在生物显微镜和放射学中。用于这种结构的现有实例分割网络在每个数据集的密集标记的实例上训练,这需要大量且通常不切实际的手动注释工作。此外,当由于对比度、形状、取向、分辨率和密度的变化而呈现新的数据集和成像模态时,需要显著的重新设计或微调。我们提出了AnyStar,这是一个域随机生成模型,它模拟具有随机外观,环境和成像物理的斑点状对象的合成训练数据,以训练通用的星凸实例分割网络。因此,使用我们的生成模型训练的网络不需要来自看不见的数据集的注释图像。在我们的合成数据上训练的单个网络准确地3D分段C。elegans和P.荧光显微镜中的dumerilii核、微CT中的小鼠皮质核、EM中的斑马鱼脑核和人胎儿MRI中的胎盘子叶,所有这些都没有任何再训练、微调、迁移学习或域适应。代码可在https://github.com/neel-dey/AnyStar获得。

2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

用于健壮体积医学分割的频域对抗性训练

https://arxiv.org/abs/2307.07269

在这里插入图片描述
确保深度学习模型在医疗保健等关键应用中的鲁棒性至关重要。虽然深度学习的最新进展提高了体积医学图像分割模型的性能,但由于这些模型容易受到对抗性攻击,因此无法立即部署到现实世界的应用中。我们提出了一个三维频域对抗攻击的体积医学图像分割模型,并证明其优势,传统的输入或体素域攻击。使用我们提出的攻击,我们引入了一种新的频域对抗训练方法,用于优化针对体素和频域攻击的鲁棒模型。此外,我们提出了频率一致性损失来调节我们的频域对抗训练,从而在模型对干净样本和对抗样本的性能之间实现更好的权衡。代码可在https://github.com/asif-hanif/vafa公开获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/5342.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】自动化构建工具-make/Makefile详解

前言 大家好吖,欢迎来到 YY 滴 Linux系列 ,热烈欢迎!本章主要内容面向接触过Linux的老铁,主要内容含 欢迎订阅 YY 滴Linux专栏!更多干货持续更新!以下是传送门! 订阅专栏阅读:YY的《…

深度学习——LSTM解决分类问题

RNN基本介绍 概述 循环神经网络(Recurrent Neural Network,RNN)是一种深度学习模型,主要用于处理序列数据,如文本、语音、时间序列等具有时序关系的数据。 核心思想 RNN的关键思想是引入了循环结构,允许…

什么是剪贴板劫持-剪贴板劫持教程

目录 前言 什么是剪贴板劫持如何避免剪贴板劫持?如何执行剪贴板劫持? 总结 前言 我来写剪贴板劫持教程。 什么是剪贴板劫持 剪贴板劫持是一种危险的攻击技术,借助该攻击者可以控制受害者的剪贴板并将恶意代码粘贴到目标机器中,…

基于单片机的语音识别智能垃圾桶垃圾分类的设计与实现

功能介绍 以51单片机作为主控系统;液晶显示当前信息和状态;通过语音识别模块对当前垃圾种类进行语音识别; 通过蜂鸣器进行声光报警提醒垃圾桶已满;采用舵机控制垃圾桶打开关闭;超声波检测当前垃圾桶满溢程度&#xff1…

认识spring项目的创建 和 从spring中进行Bean对象的存取

前言 本篇简单介绍如何创建spring项目,如何存储到spring容器中,如何从容器中获取Bean对象,如有错误,请在评论区指正,让我们一起交流,共同进步! 文章目录 前言1. 创建spring项目2. 将Bean对象存…

RS485/RS232自由转ETHERNET/IP网关rs485和232接口一样吗

你是否曾经遇到过这样的问题:如何将ETHERNET/IP网络和RS485/RS232总线连接起来呢? 远创智控的YC-EIP-RS485/232通讯网关,自主研发的ETHERNET/IP从站功能,完美解决了这个难题。这款网关不仅可以将ETHERNET/IP网络和RS485/RS232总线…

服务器数据恢复-ESX SERVER无法连接到STORAGE的数据恢复案例

服务器数据恢复环境: 某公司信息管理平台,数台VMware ESX SERVER虚拟机共享一台IBM某型号存储。 服务器故障: VC报告虚拟磁盘丢失,管理员ssh到ESX中执行fdisk -l命令查看磁盘,发现STORAGE已经没有分区表了。重启设备后…

WAIC2023:图像内容安全黑科技助力可信AI发展

目录 0 写在前面1 AI图像篡改检测2 生成式图像鉴别2.1 主干特征提取通道2.2 注意力模块2.3 纹理增强模块 3 OCR对抗攻击4 助力可信AI向善发展总结 0 写在前面 2023世界人工智能大会(WAIC)已圆满结束,恰逢全球大模型和生成式人工智能蓬勃兴起之时,今年参…

C++第五讲

思维导图 续&#xff1a;myString类完善 /* ---------------------------------author&#xff1a;YoungZorncreated on 2023/7/19 19:20.--------------------------------- */ #include<iostream> #include<cstring>using namespace std;class myString { priva…

社区发现相关算法

目录 **社区检测与聚类****社区检测技术**1. Louvain 社区检测[2]2. Surprise社区检测[3]3. 莱顿社区检测[4]4. Walktrap 社区检测[5] 结论5.LPA 标签传播6.K-L算法7.GN算法8.Newman快速算法 SlashBurn: Graph Compression and Mining beyond Caveman CommunitiesReferences 摘…

WebSocket笔记

1. websocket介绍 WebSocket 是基于 TCP 的一种新的网络协议。它实现了浏览器与服务器全双工通信——浏览器和服务器只需要完成一次握手&#xff0c;两者之间就可以创建持久性的连接&#xff0c; 并进行双向数据传输。 HTTP协议和WebSocket协议对比&#xff1a; HTTP是短连接W…

【EXCEL】通过url获取网页表格数据

目录 0.环境 1.背景 2.具体操作 0.环境 windows excel2021 1.背景 之前我用python的flask框架的爬虫爬取过豆瓣网的电影信息&#xff0c;没想到excel可以直接通过url去获取网页表格内的信息&#xff0c;比如下图这是电影信息界面 即将上映电影 (douban.com) 通过excel操作&…

商品信息管理-亿发商品进销存管理系统,批发行业零售门店免费试用

众所周知&#xff0c;批发零售行业面临着商品品类繁多、品牌众多、商品信息量庞大等挑战。同时&#xff0c;商品售价波动频繁&#xff0c;还需要管理商品批次&#xff0c;避免积压过期。针对这些传统批发零售行业的管理难题&#xff0c;加快行业数字化转型成为解决之道&#xf…

不同局域网下使用Python自带HTTP服务进行文件共享「端口映射」

文章目录 1. 前言2. 视频教程3. 本地文件服务器搭建3.1 python的安装和设置3.2 cpolar的安装和注册 4. 本地文件服务器的发布4.1 Cpolar云端设置4.2 Cpolar本地设置 5. 公网访问测试6. 结语 1. 前言 数据共享作为和连接作为互联网的基础应用&#xff0c;不仅在商业和办公场景有…

目标检测——FasterRCNN原理与实现

目录 网络工作流程数据加载模型加载模型预测过程RPN获取候选区域FastRCNN进行目标检测 模型结构详解backboneRPN网络anchorsRPN分类RPN回归Proposal层 ROIPooling目标分类与回归 FasterRCNN的训练RPN网络的训练正负样本标记RPN网络的损失函数训练过程实现正负样本设置损失函数 …

Apache Doris (三十):Doris 数据导入(八)Spark Load 3- 导入HDFS数据

目录 1. 准备HDFS数据 2. 创建Doris表 3. 创建Spark Load导入任务 4. 查看导入任务状态 进入正文之前&#xff0c;欢迎订阅专题、对博文点赞、评论、收藏&#xff0c;关注IT贫道&#xff0c;获取高质量博客内容&#xff01; 宝子们订阅、点赞、收藏不迷路&#xff01;抓紧…

echarts实现渐变折线图并添加点击事件

折线图点击事件代码: let myChart = this.$echarts.init(document.getElementById(trendBoxECharts))myChart.getZr().on(click, params => {console.log(params)let pointInPixel = [params.offsetX, params.offsetY]if (myChart.containPixel(grid, pointInPixel)) {//点…

【JAVA】云HIS系统功能菜单知识(一)

一、云HIS特色 云HIS滚动消息栏&#xff1a;质控消息、住院时长、药库结转、患者入院、医嘱停止、新开医嘱、门诊用药不良、出院审核、药品调拨、排班提醒、药品库存、药品过期、药品临期等帮助医生、护士和相关管理人员实时接收院内消息并作出处理。 二、云HIS功能菜单 【预约…

8、gateway使用和原理

一、什么是Spring Cloud Gateway 1、网关简介 网关作为流量的入口&#xff0c;常用的功能包括路由转发&#xff0c;权限校验&#xff0c;限流等。 2、Gateway简介 Spring Cloud Gateway 是Spring Cloud官方推出的第二代网关框架&#xff0c;定位于取代 Netflix Zuul。相比 …

省电液晶驱动IC,VK2C22G,COG片高抗干扰抗噪系列LCD段码驱动芯片,I2C通信接口

型号:VK2C22G DICE(邦定COB)/COG&#xff08;绑定玻璃用&#xff09; VK2C22G概述&#xff1a; VK2C22G是一个点阵式存储映射的LCD驱动器&#xff0c;可支持最大176点&#xff08;44SEGx4COM&#xff09;的LCD屏。单片机可通过I2C接口配置显示参数和读写显示数据&#…