融合创新!全局特征+局部特征,性能优于Transformer

在图像处理领域,全局特征和局部特征融合是一种常见且十分高效的策略,用于提高图像分析和识别任务的性能。

  • 全局特征反映了图像的整体属性,如颜色分布、形状轮廓等,它们通常对图像的尺度和旋转具有不变性。

  • 局部特征关注于图像中特定关键点或区域的特性,如角点或边缘,这些特征有助于识别图像中的特定对象和细节。

这种融合策略综合利用了不同特征之间的优势互补,可以提高系统的鲁棒性、提升处理效率及实际应用中提高图像检索的准确率,是CV领域值得深入研究的重要方向。

本次分享全局特征+局部特征10种融合创新方案,有最新的也有经典的,可借鉴的方法和创新点我做了简单介绍,原文以及相应代码都整理了,方便同学们学习。

论文原文以及开源代码需要的同学看文末

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition

方法:本文提出了一种用于自动语音识别(ASR)的高效双并行分支编码器InterFormer。在InterFormer中,作者利用卷积分支提取局部特征,利用Transformer分支捕捉全局表示。在Aishell-1数据集上性能优于Conformer和Transformer模型。

创新点:

  • 本文提出了InterFormer作为一种交互式本地和全局特征融合的方法,以学习更好的ASR表示。InterFormer采用了平行设计,结合了卷积块和Transformer块。此外,还提出了双向特征交互模块(BFIM)和选择性融合模块(SFM)来实现本地和全局特征的交互和融合。

  • SFM方法能够动态地融合卷积和Transformer分支的特征,并有效地结合来自双分支的信息,以权衡每个分支在不同层中的重要性。

PointCore: Efficient Unsupervised Point Cloud Anomaly Detector Using Local-Global Features

方法:本文提出了一种基于联合局部全局特征的无监督点云异常检测框架,称为PointCore。PointCore只需要一个内存库来存储局部全局表示,并为这些局部全局特征分配不同的优先级,以减少推理过程中的计算复杂度和特征不匹配的干扰。

创新点:

  • 全局和局部配准:
    • 作者使用FPFH特征描述符和RANSAC算法实现了点云的全局配准,并引入了点-平面ICP算法来局部优化全局配准的结果。

    • 这种方法提高了点云配准的稳定性,并通过最小二乘问题的最小二乘方法解决了配准的损失函数。

  • 内存库构建:
    • 作者提出了一种贪婪的下采样算法来对点云进行采样。

    • 通过构建内存库,将局部(坐标)和全局(PointMAE)表示存储在单个内存库中,降低了计算复杂度和特征不匹配的干扰。

    • 引入了基于排名的归一化方法,可以将不同尺度的值调整到一个概念上的公共尺度,并将密集分布的数据转化为均匀分布,以提高鲁棒性。

Unifying Local and Global Multimodal Features for Place Recognition in Aliased and Low-Texture Environments

方法:论文开发了一种新的地点识别模型UMF,该模型通过融合视觉和LiDAR数据的局部和全局特征,并基于单模态局部特征进行重新排序,以提高Simultaneous Localization and Mapping (SLAM)系统的可靠性和性能。

创新点:

  • 引入Super-Features
    • Super-Features 是一种中级场景表示方法,在地点识别任务中表现出色。

    • 通过对Super-Features进行对比学习,通过Transformer层传递局部特征来训练Local Super-features Integration Transformer (LIT)。

    • Super-Features的构建包括一个迭代的注意力模块,可以生成一个集合,其中每个元素都关注于一个局部和具有辨识度的图像模式。

  • 引入自注意力和交叉注意力
    • 在UMF模型中,引入自注意力和交叉注意力机制,以增强模型对输入数据不同部分的动态关注能力。

    • 自注意力层使模型能够对单个模态(F Vision或F LiDAR)内的特征分配不同的重要性权重,从而捕捉局部和全局上下文中的模式。

    • 交叉注意力层将两个模态(F Vision和F LiDAR)的特征作为输入,从而使模型能够捕捉两个模态之间的相关模式,从而学习更丰富的场景表示。

HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification

方法:本文提出了HiFuse,一种三分支的层次融合分类模型。HiFuse模型通过局部特征块、全局特征块和层次特征融合块(HFF块)从不同尺度上融合局部特征和全局表示,能够全面挖掘医学图像分类任务中病变区域的深浅特征和全局局部特征。

创新点:

  • 作者提出了HiFuse模型,结合局部和全局特征块,并设计了层次特征融合块(HFF块)来融合这些特征,并保持局部和全局分支的完整性。

  • HiFuse模型在ISIC2018、Covid-19和Kvasir数据集上取得了相对较好的结果。

  • 作者针对不同数据集设计了有针对性的动态层次特征选择,进一步提高了HiFuse模型的性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“融合10种”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/823824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python 如何获得重定向输入

通过内置的fileinput模块即可实现,创建文件filein.py: #!/usr/bin/env python import fileinput f_input fileinput.input() for line in f_input:print(line, end)增加可执行权限: chmod ax filein.py 使用: $ ls | ./filein.py…

Latex学习(从入门到入土)2

第一章 :插图 在LaTeX中插入插图可以通过graphicx宏包来实现,这个宏包提供了强大的图像处理功能。以下是如何使用graphicx宏包插入图像的基本步骤: ### 1. 加载宏包 在文档的序言部分(\begin{document}之前)&#x…

Pr2024安装包(亲测可用)

目录 一、软件简介 二、软件下载 一、软件简介 Premiere简称“Pr”,是一款超强大的视频编辑软件,它可以提升您的创作能力和创作自由度,它是易学、高效、精确的视频剪辑软件,提供了采集、剪辑、调色、美化音频、字幕添加、输出、D…

贝锐蒲公英自研异地组网新技术:远程视频监控,流畅度、清晰度大幅提升

在远程视频监控过程中,若遇到网络带宽若遇到网络波动,如:丢包、高延迟等,往往会导致视频流传输时发生数据丢失或延迟现象,从而严重影响视频画面的清晰度和流畅度。 比如:在公司总部集中监看远程矿山或户外水…

Unity 点击次数统计功能

介绍 💡.调用方便,发生点击事件后直接通过"xxx".CacheClick缓存 💡. 在允许的时间间隔内再次点击会累计点击次数,直到超出后触发事件 传送门👈

Element入门

安装ElementUI组件库 npm install element-ui2.15.3 引入 import Vue from vue; import ElementUI from element-ui; import element-ui/lib/theme-chalk/index.css; import App from ./App.vue;Vue.use(ElementUI);new Vue({el: #app,render: h > h(App) }); 应用 模板 …

一篇文章带你快速认识边缘计算(必看)

引言 5G时代带来了万物互联的飞跃,但随之而来的是数据量爆炸性增长与集中式数据中心处理模式的瓶颈:响应延迟、带宽压力、安全隐忧。边缘计算应运而生,借鉴生物智能分布式原理,将计算与分析推向数据源头,有效解决了以上…

Linux的重要命令(一)

目录 一.查看当前的工作目录-pwd 二.切换工作目录-cd 三.列表显示目录内容或文件本身-ls 四.通配符 通配符用法 五.设置别名-alias 六.统计文件或目录空间占用情况 七.创建新目录-mkdir 八.创建新文件-touch 九.创建链接文件-ln 十.复制文件或目录 十一.删除文件或目…

通过抖音短视频获客 只需要六步

抖音是当前最受欢迎的短视频平台之一,拥有庞大的用户群体和强大的社交矩阵,已经成为企业打造品牌口碑和快速获客的一种有效方式。那么,如何利用抖音短视频快速获客,打造品牌口碑呢?小马识途营销顾问简要分析如下&#…

文件操作;

目录 1.文件的打开与关闭; 打开文件; 关闭文件; 2.文件的打开方式; “r”(只读); “w”(只写); 3.文件的顺序读写; 字符输入函数fgetc 代…

离岸人民币与人民币国际化

参考 什么是离岸人民币?它有什么用? - 知乎 “人民币就是人民币,为什么要在它前面加上离岸二字?” “既然有离岸人民币,是否有在岸人民币?” 今天我们就简单了解一下什么是离岸人民币。 离岸/在岸人民币…

matlab关于COE文件之读取操作

平台:matlab2021b 场景:在使用fir滤波器后,我们使用matlab生成coe文件后。在xilinx新建IP的后,数据流经过FIR的IP核后数据位宽变宽。这时候我们需要对数据进行截位。这时候需要读取coe文件求和后,计算我们需要截位的位…

突破销售瓶颈!淘宝商品关键词搜索电商API接口助力增长

近年来,随着电商行业的飞速发展,越来越多的卖家遇到了销售瓶颈的问题。无论是面对竞争激烈的市场环境,还是受到新产品引领的冲击,找到突破口成为了卖家们迫切需要解决的难题。联讯数据将介绍一种能够助力增长的方法——淘宝商品关…

C语言入门第五天(复合类型)

一、结构体 1.结构体的概述 结构体(struct)可以理解为用户自定义的特殊的复合的“数据类型” 2.结构体变量的定义和初始化 定义结构体变量的方式: 先声明结构体类型再定义变量名在声明类型的同时定义变量 语法格式: // 先声明结构体类型再定义变量名 st…

低噪声放大器是如何实现低噪声放大的功能的

灵敏度作为接收机最重要的指标之一,直接决定了接收机能分辨的最小信号。接收机的灵敏度计算公式如下所示。 Psensitivity=-174dBm+NF+10*lg(BW)+SNR 由接收机灵敏度的计算公式可知,影响接收机灵敏度的指标有噪声系数、带宽和信噪比,因此一旦带宽和信噪比确定了,那么能决…

Java设计模式——代理模式

静态代理: Java静态代理是设计模式中的一种,它通过创建一个代理类来代替原始类,从而提供额外的功能或控制原始类的访问。 如何使用Java静态代理 要创建一个静态代理,你需要有一个接口,一个实现该接口的目标类&#…

民航电子数据库:[E14024]事务内变更操作次数超过最大许可值10000,可通过系统参数max_trans_modify适当调整限制

目录 一、场景二、异常情况三、原因四、排查五、解决 一、场景 1、对接民航电子数据 2、执行delete语句时报错 二、异常情况 三、原因 通过报错信息就可以看出,是系统参数max_trans_modify配置导致 当删除的数据量 > max_trans_modify时,删除就会…

HarmonyOS开发实例:【分布式手写板】

介绍 本篇Codelab使用设备管理及分布式键值数据库能力,实现多设备之间手写板应用拉起及同步书写内容的功能。操作流程: 设备连接同一无线网络,安装分布式手写板应用。进入应用,点击允许使用多设备协同,点击主页上查询…

JVM之方法区的详细解析

方法区 方法区:是各个线程共享的内存区域,用于存储已被虚拟机加载的类信息、常量、即时编译器编译后的代码等数据,虽然 Java 虚拟机规范把方法区描述为堆的一个逻辑部分,但是也叫 Non-Heap(非堆) 设置方法…

Latex学习(从入门到入土)3

第一章:排版矩阵 在LaTeX中,排版矩阵可以使用amsmath宏包提供的几种不同环境来实现。以下是一些常用的环境和它们的使用方式: ### 使用matrix环境 matrix环境是最基础的矩阵环境,它创建一个带有边框的矩阵,元素默认…