【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(7 月 17 日论文合集)

文章目录

  • 一、分类|识别相关(11篇)
    • 1.1 Multimodal Distillation for Egocentric Action Recognition
    • 1.2 Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based Tumor Classification
    • 1.3 Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition
    • 1.4 Defect Classification in Additive Manufacturing Using CNN-Based Vision Processing
    • 1.5 3D Shape-Based Myocardial Infarction Prediction Using Point Cloud Classification Networks
    • 1.6 One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton Matching
    • 1.7 Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition
    • 1.8 LightFormer: An End-to-End Model for Intersection Right-of-Way Recognition Using Traffic Light Signals and an Attention Mechanism
    • 1.9 Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling
    • 1.10 A metric learning approach for endoscopic kidney stone identification
    • 1.11 Bridging the Gap: Heterogeneous Face Recognition with Conditional Adaptive Instance Modulation

一、分类|识别相关(11篇)

1.1 Multimodal Distillation for Egocentric Action Recognition

用于自我中心行为识别的多模式提取

https://arxiv.org/abs/2307.07483

在这里插入图片描述
以自我为中心的视频理解的焦点是建模手-对象交互。标准型号,例如CNN或Vision Transformers接收RGB帧作为输入,表现良好。然而,它们的性能通过采用提供补充线索(诸如对象检测、光流、音频等)的附加输入模态来进一步改进。另一方面,特定于模态的模块的增加的复杂性使得这些模型对于部署来说不切实际。这项工作的目标是保留这样的多模态方法的性能,同时仅使用RGB帧作为推理时的输入。我们证明,对于Epic-Kitchens和Something-Something数据集上的以自我为中心的动作识别,由多模态教师教授的学生往往比以单峰或多模态方式在地面真实标签上训练的建筑等效模型更准确,校准得更好。我们进一步采用了一个原则性的多模态知识蒸馏框架,使我们能够处理的问题时发生的天真的方式应用多模态知识蒸馏。最后,我们证明了实现的计算复杂性的降低,并表明,我们的方法保持更高的性能与输入视图的数量减少。

1.2 Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based Tumor Classification

基于动态Meta-Embedding的双查询多实例学习肿瘤分类

https://arxiv.org/abs/2307.07482

在这里插入图片描述
全切片图像(WSI)评估是癌症诊断和治疗计划中具有挑战性且关键的步骤。WSI需要高放大倍数以促进亚细胞分析。在千兆像素WSIs的上下文中,用于补丁甚至像素级分类的精确注释是冗长乏味的,并且需要领域专家。另一方面,粗粒度标签很容易访问,这使得WSI分类成为多实例学习(MIL)的理想用例。在我们的工作中,我们提出了一种新的基于嵌入的双查询MIL管道(DQ-MIL)。我们对嵌入和聚合步骤都有贡献。由于通用的视觉特征表示尚未提供,嵌入模型目前在泛化能力方面受到限制。通过我们的工作,我们探索了基于MIL背景下的尖端自监督预训练模型的动态元嵌入的潜力。此外,我们提出了一个新的MIL架构,能够结合MIL的关注与相关的自我关注。我们的方法的双查询感知器的设计,使我们能够利用自我蒸馏的概念,并结合了一个小模型的优势,在一个大模型的丰富的功能表示的背景下,低数据制度。我们证明了我们的方法在三个组织病理学数据集上的优异性能,在这些数据集上,我们显示出比最先进的方法提高了10%。

1.3 Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition

基于骨架的交互时空令牌注意网络一般交互动作识别

https://arxiv.org/abs/2307.07469

在这里插入图片描述
交互动作识别在人机交互和协作中起着重要的作用。以往的方法使用后期融合和共同注意机制来捕获交互关系,这具有有限的学习能力或效率低下,以适应更多的交互实体。由于假设每个实体的先验知识都是已知的,因此也缺乏对涉及主题多样性的更一般性环境的评价。为了解决这些问题,我们提出了一个交互式时空令牌注意力网络(ISTA-Net),它同时模拟空间,时间和交互关系。具体来说,我们的网络包含一个标记器来划分交互式时空标记(IST),这是一种统一的方式来表示多个不同实体的运动。通过扩展实体维度,IST提供了更好的交互式表示。为了在IST中沿着三个维度共同学习,设计了与3D卷积集成的多头自注意块来捕获令牌间的相关性。在对相关性建模时,严格的实体排序通常与识别交互式动作无关。为此,实体重排,提出了消除可互换的实体在IST的有序性。在四个数据集上进行的大量实验验证了ISTA-Net的有效性,优于最先进的方法。我们的代码可在https://github.com/Necolizer/ISTA-Net上公开获取

1.4 Defect Classification in Additive Manufacturing Using CNN-Based Vision Processing

基于CNN的视觉处理在添加剂制造中的缺陷分类

https://arxiv.org/abs/2307.07378

在这里插入图片描述
计算机视觉和使用视觉传感器的原位监测的发展允许从增材制造(AM)过程中收集大型数据集。这样的数据集可以与机器学习技术一起使用,以提高AM的质量。本文研究了两种情况:首先,使用卷积神经网络(CNN)来准确地对来自AM的图像数据集中的缺陷进行分类,并且第二,将主动学习技术应用于所开发的分类模型。这允许构建人在回路机制以减少训练和生成训练数据所需的数据的大小。

1.5 3D Shape-Based Myocardial Infarction Prediction Using Point Cloud Classification Networks

基于点云分类网络的三维形状心肌梗死预测

https://arxiv.org/abs/2307.07298

在这里插入图片描述
心肌梗死(MI)是最普遍的心血管疾病之一,其相关临床决策通常基于单值成像生物标志物。然而,这样的度量仅近似心脏的复杂3D结构和生理学,因此阻碍了对MI结果的更好理解和预测。在这项工作中,我们调查的效用完整的三维心脏形状的点云的形式,以改善检测心肌梗死事件。为此,我们提出了一个全自动的多步骤流水线组成的3D心脏表面重建步骤,其次是点云分类网络。我们的方法利用点云几何深度学习的最新进展,在心脏解剖结构的高分辨率表面模型上实现直接和有效的多尺度学习。我们对1068名英国生物库受试者进行了普遍MI检测和事件MI预测任务的评估,发现与临床基准相比,我们的方法分别提高了13%和5%。此外,我们分析了每个心室和心脏相位的3D形状为基础的MI检测的作用,并进行可视化分析的形态和生理模式通常与MI的结果。

1.6 One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton Matching

基于多尺度时空骨架匹配的一次动作识别

https://arxiv.org/abs/2307.07286

在这里插入图片描述
一次性骨骼动作识别,其目的是学习一个单一的训练样本的骨骼动作识别模型,已引起越来越多的兴趣,由于收集和注释大规模的骨骼动作数据的挑战。然而,现有的研究大多是通过比较它们的特征向量直接匹配骨架序列,忽略了骨架数据的空间结构和时间顺序。本文提出了一种新的单次骨架动作识别技术,通过多尺度时空特征匹配处理骨架动作识别。我们表示在多个空间和时间尺度的骨架数据,并从两个角度实现最佳的特征匹配。第一种是多尺度匹配,它同时在多个空间和时间尺度上捕获骨架数据的尺度语义相关性。第二种是跨尺度匹配,其通过捕获跨多个尺度的样本相关性来处理不同的运动幅度和速度。在三个大规模数据集(NTU RGB+D、NTU RGB+D 120和PKU-MMD)上的大量实验表明,我们的方法实现了优异的一次性骨架动作识别,并且它始终优于最先进的大幅度。

1.7 Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition

基于互补变频感知网络的开集细粒度图像识别

https://arxiv.org/abs/2307.07214

在这里插入图片描述
开集图像识别是计算机视觉中一个具有挑战性的课题。现有文献中的大多数工作都集中在从输入图像中学习更具鉴别力的特征,然而,它们通常对特征中的高频或低频分量不敏感,导致细粒度图像识别的性能下降。为了解决这个问题,我们提出了一个互补的频率变化感知网络,可以更好地捕捉高频和低频信息,称为CFAN。所提出的CFAN由三个顺序模块组成:(i)引入特征提取模块,用于从输入图像学习初步特征;(ii)频率变化滤波模块被设计成经由频率可调滤波器从频域中的初步特征中分离出高频分量和低频分量两者;(iii)互补的时间聚合模块被设计用于经由两个长短期记忆网络将高频分量和低频分量聚合成有区别的特征。基于CFAN,我们进一步提出了一种开集细粒度图像识别方法,称为CFAN-OSFGR,通过CFAN学习图像特征,并通过线性分类器进行分类。在3个细粒度数据集和2个粗粒度数据集上的实验结果表明,CFAN-OSFGR在大多数情况下的性能明显优于9种最先进的方法。

1.8 LightFormer: An End-to-End Model for Intersection Right-of-Way Recognition Using Traffic Light Signals and an Attention Mechanism

LightFormer:一种端到端的交通灯信号路权识别模型及注意机制

https://arxiv.org/abs/2307.07196

在这里插入图片描述
对于通过信号交叉口驾驶的智能车辆,确定车辆是否具有给定交通灯状态的通行权至关重要。为了解决这个问题,可以使用基于相机的传感器来确定车辆是否具有直行、左转或右转的许可。本文提出了一种新的端到端的交叉口路权识别模型称为LightFormer生成路权状态的可用行驶方向在复杂的城市交叉口。该模型包括一个时空的内部结构与注意力机制,它结合了过去的图像的功能,有助于当前帧的权利的方式状态的分类。此外,一个修改后的,多权重弧面损失,以提高模型的分类性能。最后,建议LightFormer的训练和测试两个公共交通灯数据集手动增强标签,以证明其有效性。

1.9 Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

利用预先训练的ASR编码器实现有效且高效的端到端语音意图分类和空位填充

https://arxiv.org/abs/2307.07057

在这里插入图片描述
我们研究了语音意图分类和时隙填充(SICSF),提出使用在语音识别(ASR)上预训练的编码器来初始化端到端(E2 E)Conformer-Transformer模型,该模型在SLURP数据集上实现了新的最先进的结果,具有90.14%的意图准确度和82.27%的SLURP-F1。我们将我们的模型与在自监督学习(SSL)上预训练的编码器进行比较,并表明ASR预训练比SSL对SICSF更有效。为了探索参数效率,我们冻结了编码器并添加了适配器模块,并表明参数效率只能通过ASR预训练的编码器实现,而SSL编码器需要完全微调才能实现可比的结果。此外,我们提供了一个深入的比较端到端模型与级联模型(ASR+NLU),并表明,E2 E模型优于级联模型,除非提供一个Oracle ASR模型。最后但并非最不重要的是,我们的模型是第一个E2 E模型,实现了与Oracle ASR级联模型相同的性能。代码、检查点和配置可用。

1.10 A metric learning approach for endoscopic kidney stone identification

一种用于内窥镜肾结石识别的度量学习方法

https://arxiv.org/abs/2307.07046

在这里插入图片描述
最近已经提出了几种深度学习(DL)方法,用于在输尿管镜检查期间自动识别肾结石,以实现快速的治疗决策。即使这些DL方法产生了有希望的结果,它们也主要适用于可获得大量标记数据的肾结石类型。然而,只有少数标记的图像可用于一些罕见的肾结石类型。该贡献利用深度度量学习(DML)方法i)处理具有少量样本的此类类,ii)很好地泛化到分布样本之外,以及iii)更好地处理添加到数据库中的新类。所提出的引导深度度量学习方法基于一种新的架构,该架构旨在以改进的方式学习数据表示。该解决方案的灵感来自于Few-Shot学习(FSL),并利用了师生方法。教师模型(GEMINI)基于来自标记数据的先验知识生成简化的假设空间,并且将其用作学生模型(即,ResNet50)。首先对分别用于识别的两个数据集进行广泛的测试,即针对肾结石碎片的表面采集的一组图像和碎片部分的一组图像。建议的DML方法提高了10%和12%的识别精度相比,DL方法和其他DML方法,分别。此外,从两个数据集类型的模型嵌入合并在一个有组织的方式,通过多视图计划,同时利用表面和部分片段的信息。与DL模型和浅层机器学习方法相比,使用所得混合模型的测试分别将识别准确度提高了至少3%和高达30%。

1.11 Bridging the Gap: Heterogeneous Face Recognition with Conditional Adaptive Instance Modulation

弥合鸿沟:基于条件自适应实例调制的异类人脸识别

https://arxiv.org/abs/2307.07032

在这里插入图片描述
异构人脸识别(HFR)旨在匹配不同领域的人脸图像,例如热光谱和可见光谱,将人脸识别(FR)系统的适用性扩展到具有挑战性的场景。然而,目标领域中大规模数据集的领域差距和有限可用性使得从头开始训练鲁棒且不变的HFR模型变得困难。在这项工作中,我们对待不同的方式作为不同的风格,并提出了一个框架,以适应特征图,弥合域的差距。我们引入了一种新的条件自适应实例调制(CAIM)模块,可以集成到预先训练的FR网络中,将其转换为HFR网络。CAIM块调制中间特征图,以适应目标模态的风格,有效地桥接域间隙。我们提出的方法允许端到端的训练与最小数量的配对样本。我们在多个具有挑战性的基准测试中广泛评估了我们的方法,与最先进的方法相比,表现出卓越的性能。用于复制研究结果的源代码和协议将公开提供。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ClickHouse解决活动海量数据问题 | 京东云技术团队

1、背景 魔笛活动平台要记录每个活动的用户行为数据,帮助客服、运营、产品、研发等快速处理客诉、解决线上问题并进行相关数据分析和报警。可以预见到需要存储和分析海量数据,预估至少几十亿甚至上百亿的数据量,所以需要选择一款能存储海量数…

会议音响系统麦克风阵列波束形成算法C语言实现

一 应用麦克风阵列波束成形算法做的项目产品 二 麦克风波束形成技术应用领域? 麦克风波束形成技术是一种利用多个麦克风阵列来实现声音定向捕捉和增强的技术。通过对多个麦克风信号进行处理和合成,可以使麦克风系统在特定方向上具有更高的灵敏度和抑制非期望方向上的噪…

机器学习(13)--支持向量机

目录 一、支持向量机概述 二、Sklearn中的SVM概述 三、线性SVM损失函数 四、sklearn中进行可视化 1、导入模块 2、实例化数据集,可视化 3、网格点制作 4、建立模型并绘制决策边 目录 一、支持向量机概述 二、Sklearn中的SVM概述 三、线性SVM损失函数 四…

机器学习技术(三)——机器学习实践案例总体流程

机器学习实践案例总体流程 文章目录 机器学习实践案例总体流程一、引言二、案例1、决策树对鸢尾花分类1.数据来源2.数据导入及描述3.数据划分与特征处理4.建模预测 2、各类回归波士顿房价预测1.案例数据2.导入所需的包和数据集3.载入数据集,查看数据属性&#xff0c…

四个按键控制led的四种变化(按键控制led)(附源码)

文章目录 一、实验任务二、系统框图三、代码实现四、引脚分配五、总结 一、实验任务 使用开发板上的四个按键控制四个LED灯。按下不同的按键时,四个LED灯显示不同效果。本实验是在EP4CE6F17C8开发板上实现,仿真请用modelsim Altera 二、系统框图 三、代…

揭秘GPT-4;Adobe Firefly AI 扩大测试规模

🦉 AI新闻 🚀 Adobe Firefly AI 扩大测试规模,支持100多种语言的输入 摘要:Adobe宣布扩大测试规模,Adobe Firefly AI现在支持100多种语言的 prompts 输入。网页测试版Firefly已经扩充了罗马尼亚语等多种语言&#xf…

MacOS使用USB接口与IPhone进行Socket通信

演示效果如下: 开源地址: GitHub - rsms/peertalk: iOS and Mac Cocoa library for communicating over USB 克隆源码: git clone https://github.com/rsms/peertalk.git 克隆后打开peertalk然后启动xcode工程 先启动MacOS服务端工程,再启动iOS客户端工程 客户端 服务端

微信小程序安装和使用 Vant Weapp 组件库

微信小程序安装和使用 Vant Weapp 组件库 1. Vant Weapp 介绍2. Vant Weapp 的 安装2.1. 通过npm安装2.2. 构建npm2.3. 修改 app.json2.4. 修改 project.congfig.json2.5. 测试一下,使用Vant Weapp提供的组件 1. Vant Weapp 介绍 Vant 是一个轻量、可靠的移动端组件…

极智开发 | ubuntu交叉编译aarch64 boost

欢迎关注我的公众号 [极智视界],获取我的更多经验分享 大家好,我是极智视界,本文介绍一下 ubuntu交叉编译aarch64 boost。 邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接&#xf…

opencv -10 基础运算之 图像加权和(图像融合图像修复视频合成)

什么是图像加权和? 所谓图像加权和,就是在计算两幅图像的像素值之和时,将每幅图像的权重考虑进来,可以用公式表示为: dst saturate(src1 𝛼 src2 𝛽 𝛾)式中,satu…

C# Linq 详解二

目录 概述 七、OrderBy 八、OrderByDescending 九、Skip 十、Take 十一、Any 十二、All C# Linq 详解一 1.Where 2.Select 3.GroupBy 4.First / FirstOrDefault 5.Last / LastOrDefault C# Linq 详解二 1.OrderBy 2.OrderByDescending 3.Skip 4.Take 5.Any 6.All C#…

arm day2

汇编实现1到100的累加 .text .global _start_start:mov r0,#0loop:add r0,#1add r1,r0cmp r0,#100blne loopstop:b stop结果为0x13ba等于5050

python的魔法函数

一、介绍 在Python中,魔法函数是以双下划线__开头和结尾的特殊函数。它们在类定义中用于实现特定的行为,例如运算符重载、属性访问、迭代等。 以下是一些常见的Python魔法函数: __init__: 这是一个特殊的构造函数,在创建类的实例…

Web_php_include

代码审计 进入环境&#xff0c;根据题目的提示&#xff0c;本题考察文件包含漏洞 <?php show_source(__FILE__); echo $_GET[hello]; $page$_GET[page]; while (strstr($page, "php://")) {$pagestr_replace("php://", "", $page); } incl…

解决Ruoyi单体版本集成Echarts多图表时在Tab模式下不展示问题

目录 背景 一、Tab拆分后无法展示 1、环境简介 2、原始报表功能说明 3、tab切分遇到的问题 二、问题分析及解决 1、问题分析 2、问题解决 3、初始化时图表渲染 4、Tab切换时重渲 总结 背景 最近在使用ruoyi的单体化版本进行Echarts多图表展示时遇到一个问题&#xff0c;r…

苍穹外卖day03——菜品管理业务代码开发

目录 公共字段自动填充——问题分析和实现思路 公共字段自动填充——代码实现(1) 公共字段自动填充——代码实现完善(2) 新增菜品——需求分析与设计 产品原型 ​编辑 接口设计 ​编辑 数据库设计 新增菜品——代码开发1(文件上传接口) 配置文件 Controller层代码 前后…

Java经典面试解析:服务器卡顿、CPU飙升、接口负载剧增

01 线上服务器CPU飙升&#xff0c;如何定位到Java代码 解决这个问题的关键是要找到Java代码的位置。下面分享一下排查思路&#xff0c;以CentOS为例&#xff0c;总结为4步。 第1步&#xff0c;使用top命令找到占用CPU高的进程。 第2步&#xff0c;使用ps –mp命令找到进程下…

无线电音频-BPA600蓝牙协议分析仪名词解析

1 介绍 2 Baseband基带分析 (1)Delta 是什么含义? "Delta" 有多个含义,取决于上下文。以下是常见的几种含义: 希腊字母:Delta&#x

Linux(centos7)下安装mariadb10详解

MariaDB 和 MySQL 之间存在紧密的关系。 起源&#xff1a;MariaDB 最初是作为 MySQL 的一个分支而创建的。它的初始目标是保持与 MySQL 的兼容性&#xff0c;并提供额外的功能和性能改进。 共同的代码基础&#xff1a;MariaDB 使用了 MySQL 的代码基础&#xff0c;并在此基础上…

Docker 常用命令

docker命令大全 命令说明docker attach将本地标准输入、输出和错误流附加到正在运行的容器docker build从 Dockerfile 构建镜像docker builder管理构建docker checkpoint管理检查点docker commit从容器的更改中创建新图像docker config管理 Docker 配置docker container管理容器…