【论文简述】High-frequency Stereo Matching Network(CVPR 2023)

一、论文简述

1. 第一作者:Haoliang Zhao

2. 发表年份:2023

3. 发表期刊:CVPR

4. 关键词:立体匹配、MVS、深度学习、高频信息、LSTM

5. 探索动机:(1)当涉及到估计的视差图的更精细的特征时,大多数当前的方法都是不足的。特别是对于物体的边缘性能。在散景和渲染应用程序中,视差图的边缘性能对最终结果至关重要。(2)无纹理区域的失配和薄物体的缺失也是导致视差图显著恶化的重要因素。例如,弱纹理墙的不匹配和细电线的缺失是避障应用的致命缺陷。

(1)Most current approaches fall short when it comes to the finer features of the estimated disparity map. Especially for the edge performance of the objects. In bokeh and rendering applications, the edge performance of the disparity map is critical to the final result. For example, technologies that require pixellevel rendering, such as VR and AR, have high requirements for fitting between the scene model and the image mapping, which means we need a tight fit between the edges in the disparity map and the original RGB image.

(2)The mismatch of textureless regions and the missing of thin objects are also important factors that significantly deteriorate the disparity map. For example, the mismatch of weak texture walls and the missing of thin electrical wires are fatal flaws for obstacle avoidance applications.

6. 工作目标:目标是解决边缘模糊、薄物体缺失和无纹理区域不匹配的问题。

7. 核心思想:提出了一种新的端到端数据驱动的立体匹配方法DLNR (Stereo Matching Network with decoupling LSTM and Normalization Refinement)。

  1. Most of the current iterative methods usually apply the original GRU structure as their iterative cell. While the problem is that in the original GRU structure, the information used to generate the update matrix of the disparity map is coupled with the value of the hidden state transfer between iterations, making it hard to keep subtle details in the hidden state. Therefore, we designed the Decouple LSTM module to decouple the hidden state from the update matrix of the disparity map.Decouple LSTM keeps more high-frequency information in the iterative stage through data decoupling, however, in order to balance performance and computational speed, the resolution of the iterative stage is only 1/4 of the original resolution at most.
  2. However, due to the large differences in disparity ranges between different images and different datasets, the Refinement module often has poor generalization performance when encountering images with different disparity ranges. In particular, when performing finetune, the module may even fail when encountering disparity ranges that differ greatly. To address this problem, we propose the Disparity Normalization strategy. Experiments and visualizations proved that the module improves performance as well as alleviates the problem of domain difference.
  3. most learning-based methods still use ResNet-like feature extractors which fall short when providing information for well-designed poststage structures. To alleviate the problem, we propose the Channel-Attention Transformer feature extractor aims to capture long-range pixel dependencies and preserve highfrequency information.

8. 实验结果:

Our method (DLNR) ranks 1st on the Middlebury leaderboard, significantly outperforming the next best method by 13.04%. Our method also achieves SOTA performance on the KITTI-2015 benchmark for D1-fg.

9.论文&代码下载:

https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_High-Frequency_Stereo_Matching_Network_CVPR_2023_paper.pdf

https://github.com/StereoResearcher/DLNR

二、实现过程

1. 网络结构

校正后的图像对被传递到具有远程像素建模能力的通道-注意力转换器特征提取器中,然后由后续的多尺度解耦LSTM网络进行特征处理,该网络可以跨迭代携带更多的语义信息,在采用前馈结构处理之前,细化模块对视差图进行上采样并执行视差归一化,可以缓解域差异问题。

2. Channel-Attention Transformer extractor

近年来,Transformer和自注意力算法由于其远程像素依赖性建模能力在许多视觉任务中被证明是有效的。而其计算量随着图像分辨率的提高呈二次增长。受Restormer的启发,设计了一个多级、多尺度的通道注意力Transformer作为特征提取器。详细结构如图所示。目标是设计一个特征提取器,不仅可以捕获远程像素依赖关系,还可以保留尽可能多的高频信息。

2.1. 保留高频信息

为了达到锐利边缘和更好地处理弱纹理区域的目的,在处理过程中保持高频是至关重要的。最直观的方法是在整个结构中保持高分辨率,但这会导致极高的计算成本。而采用带有步长的卷积或池化机制进行下采样将不可避免地导致信息丢失和性能下降。为了缓解这个问题,用Pixel Unshuffle将图像降采样到原始大小的1/4,并在不丢失任何高频信息的情况下扩展通道。具体地说,原图像的形状为[C, H∗r, W∗r],经过Pixel Unshuffle后被重塑为[C∗r2, H, W]。

2.2. 通道注意力机制

传统的自注意力管理着一个注意力图HW ×HW,这导致二次复杂度,使得它不适合需要高分辨率的视觉任务。因此,采用的CWSA模块来源于MDTA[42]模块首先由Restromer[42]提出,它以线性复杂度计算通道维度上的自注意力。

3. Multiscale Decouple LSTM Regularization

该方法使用迭代单元进行正则化。在每次迭代中,迭代单元结合来自特征提取器的多尺度多阶段信息Fl、Fm和Fh,以及上一次迭代hi−1、Ci−1生成的隐藏状态和上一次视差图Di−1,预测一个新的视差图更新矩阵∆Di。单元的设计目的是尽可能高效地使用特征信息,并在迭代之间高效地传递有效信息。

3.1. 多尺度设计

在立体匹配任务中,由于无纹理区域的图案较弱,很难找到相应的像素。因此,捕获空间相邻像素的模式成为问题的关键部分。我们通过迭代模块的多尺度设计来解决这个问题。具体来说,迭代模块由三个不同尺度的子模块组成,分别为图像分辨率大小的1/4、1/8和1/16。每一个都与相邻的分辨率相互作用。低分辨率分支具有更大的等效感知场,可以更好地处理无纹理的区域,而高分辨率分支捕获更多的高频细节,可以为视差图的边缘和拐角添加更多的细节。

3.2. 解耦机制

在大多数迭代视觉网络使用的原始GRU结构中,隐藏状态h用于生成视差的更新矩阵(GRU Cell的输出),同时h也是GRU网络的隐藏状态(向下一次迭代传递信息)。在消融实验中,这种耦合问题被证明对网络性能有重大影响。

本文通过引入一个额外的隐藏状态C来解决这个问题。如图所示,上面提到的隐藏状态h用于通过视差头生成更新矩阵,而新引入的隐藏状态C仅用于跨迭代传递信息。该设计解耦了更新矩阵和隐藏状态,可以跨迭代保留更有效的语义信息。

迭代单元以隐藏状态和代价体的信息作为输入,输出视差图的更新矩阵(图中∆Di),该矩阵与视差图(图中Di)相加。由于视差图越来越精细,更新矩阵∆Di逐渐趋近于0。L表示Lookup操作符。 

​4. Disparity Normalization Refinement

由于模型对下采样分辨率进行了正则化处理,导致高频信息不能完全保留。为此,设计了一个细化模块,旨在以全分辨率捕获更细微的细节。

在微调中相对独立的模块中,由于域的差异,特征图的输出可能都是负的,并且在ReLU激活函数之后,特征图的输出都是0值,从而导致网络无法对这部分参数进行微调,只能通过跳跃连接将特征信息传递给后续模块。这就导致了网络预训练后,一些模块不能很好地调优,甚至会遇到模块失败当在其他数据集中执行微调时。

如图所示,首先通过学习上采样对1/4分辨率视差图进行上采样。然后使用扭曲函数将右图像转换为左图像并计算误差图。

式中Dfr为全分辨率的视差图,Dlr表示上采样前的视差图。
上采样的视差缩放到0和1之间。注意,min(Dfr)通常等于0。文中使用左图像的宽度作为分母将所有像素点的视差值归一化,这是最大可能的视差值。

然后在归一化视差图中的信息Dfr,误差图El与左侧图像Il将进行组合并通过沙漏网络处理,得到归一化精细视差图Dfr '。

最后,执行视差非归一化,生成最终的视差图。 

5. Loss Function

用下面的等式来监督网络:

7. 实验

7.1. 与先进技术的比较

7.2. 消融实验

隐藏状态h和新引入的隐藏状态c的可视化。具体来说,使用PCA将通道数从128减少到1。隐藏状态C保留了更多的边缘特征(见红框)和更多的薄对象特征(见蓝框和黄框)。放大以获得更好的视野。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/234696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java反序列化工具ysoserial使用

ysoserial是一款用于生成 利用不安全的Java对象反序列化 的有效负载的概念验证工具。 项目地址 https://github.com/frohoff/ysoserial主要有两种使用方式,一种是运行ysoserial.jar 中的主类函数,另一种是运行ysoserial中的exploit 类,二者…

未来十年,人工智能就业方向及前景如何?

人工智能(AI)是一个快速发展的领域,对于未来的就业方向和前景有着巨大的影响。以下是一些可能的发展趋势和就业前景: 1、增长趋势:人工智能正在全球范围内经历巨大的增长,预计在未来十年内将继续保持这一趋…

一个正则快速找到在ES中使用profile的时产生慢查询的分片

在es中使用profile分析慢查询的时候,往往因为分片过多,或者因为查询条件太复杂,分析的结果几十万行。在kibana上点半天,也找不到一个耗时长的分片。 kibana上可以通过正则来匹配。其实我们只需要匹配到耗时大于10秒的请求。 检索语…

0x42 树状数组

0x42 树状数组 若一个正整数 x x x的二进制表示为 a k − 1 a k − 2 . . . a 2 a 1 a 0 a_{k-1}a_{k-2}...a_2a_1a_0 ak−1​ak−2​...a2​a1​a0​,其中等于1的位是 { a i 1 , a i 2 , . . . , a i m } \{a_{i_1},a_{i_2},...,a_{i_{m}}\} {ai1​​,ai2​​,...…

鸿蒙原生应用再添新丁!喜马拉雅入局鸿蒙

鸿蒙原生应用再添新丁!喜马拉雅入局鸿蒙 来自 HarmonyOS 微博12月20日消息, #喜马拉雅正式完成鸿蒙原生应用版本适配#,作为音频业巨头的喜马拉雅 ,将基于#HarmonyOS NEXT#创造更丰富、更智慧的全场景“声音宇宙”!#鸿…

Python 正则表达式入门:轻松掌握字符串匹配的艺术

Python 正则表达式入门:轻松掌握字符串匹配的艺术 引言:什么是正则表达式?基础知识:正则表达式的语法和规则Python中的正则表达式:re模块的使用实战应用:常见的正则表达式案例最佳实践与常见错误结语&#…

格密码:LWE设计公钥密码系统

目录 一. LWE公私钥对 二. 怎么加密? 三. 怎么解密? 四. 正确性分析 五. 安全性 在格密码中,LWE(Learning With Errors)问题非常重要,本文章将介绍一些基于LWE设计的公钥密码方案,并详细讨论这些方案是如何运行的…

oracle怎样才算开启了内存大页?

oracle怎样才算开启了内存大页? 关键核查下面三点: 1./etc/sysctl.conf vm.nr_hugepages16384这是给了32G,计划sga给30G,一般需多分配2-4G sysctl -p生效 看cat /proc/meminfo|grep Huge啥结果? 这种明显是配了…

蓝牙物联网开发与应用:五大核心应用场景!

蓝牙技术在物联网中的五大核心应用场景 1、智能家居 通过蓝牙连接智能家居设备,如智能灯泡、智能插座、智能恒温器等,可以实现远程控制、语音控制等功能,提高家居的智能化程度和便利性。 2、智能穿戴设备 蓝牙技术可以连接智能手表、智能手…

01AVue入门(持续学习中)

1.使用AVue开发简单的前端页面直接简单到起飞,他是Element PlusVueVite开发的,不需要向元素的前端代码一样一个组件要传很多参数,他可以使用Json文本来控制我们要传入的数据结构来决定显示什么 //我使用的比较新,我们也可以使用cdn直接使用script标签直接引入 2.开发中遇到的坑…

共享目录搭建

【linux系统】 1.sudo yum install nfs-utils 或 sudo apt install nfs-common 问题:如果apt install nfs-common报错dpkg: error processing package rpcbind (--configure) 解决方法:删除所有信息之后update sudo mv/var/lib/dpkg/info/ /va…

鸿蒙ArkTS语言介绍与TS基础法

1、ArkTS介绍 ArkTS是HarmonyOS主力应用开发语言,它在TS基础上,匹配ArkUI框架,扩展了声明式UI、状态管理等响应的能力,让开发者以更简洁、更自然的方式开发跨端应用。 JS 是一种属于网络的高级脚本语言,已经被广泛用…

【ITK库学习】使用itk库进行图像配准:“Hello World”配准(一)

目录 1、itkImageRegistrationMethod / itkImageRegistrationMethodv42、itkTranslationTransform3、itkMeanSquaresImageToImageMetric / itkMeanSquaresImageToImageMetric44、itkRegularStepGradientDescentOptimizerv / itkRegularStepGradientDescentOptimizerv4 图像配准…

MyBatis的ORM!!!

首先你要明白为什么使用ORM:我们看一个示例,我们发现我们要声明的pojo类中的属性名和数据库中的字段名不一致,这时就需要我们使用MyBatis的ORM。 首先还是准备工作: 1.创建Maven工程,还没有配置Maven的和还不会的去看这…

2023年12月20日学习总结

今日to do list: 学习kaggle中store sales中的dart forcasting🎯 大概搜集一个声纹识别的报告(老师给的新项目😭) 学习时不刷手机 okkkkkkkkkkkkkk 开始👍 1. 时间序列预测- a complete guide 总结一下这…

mysql创建用户和赋权

1.创建用户 CREATE USER new_userlocalhost IDENTIFIED BY user_password; “localhost"只允许本地连接,而”%"允许所有IP地址都可以连接到服务器。 2.赋权 GRANT ALL PRIVILEGES ON database_name.* TO new_userlocalhost; FLUSH PRIVILEGES; 3.给…

【C++初阶】学习string类的模拟实现

目录 前言:一、创建文件和类二、实现string类2.1 私有成员和构造函数2.2 析构函数2.3 拷贝构造函数2.3.1 写法12.3.2 写法2 2.4 赋值重载函数2.4.1 写法12.4.2 写法2 2.5 迭代器遍历访问2.6 下标遍历访问2.7 reserve2.8 resize2.9 判空和清理2.10 尾插2.10.1 尾插字…

计算机组成原理综合2

21、和外存储器相比,内存储器的特点是________。C A. 容量大、速度快、成本低 B. 容量大、速度慢、成本高 C. 容量小、速度快、成本高 D. 容量小、速度快、成本低 22、某计算机字长16位,存储器容量64KB,若按字编址&#xf…

diffusers-Inpainting

原文链接:添加链接描述 白色mask区域仅使用生成出来的,非白色mask区域使用原始影像,但是图像有点不平滑 import PIL import numpy as np import torchfrom diffusers import AutoPipelineForInpainting from diffusers.utils i…

Ubuntu 常用命令之 gzip 命令用法介绍

gzip 是一个在 Linux 和 Unix 系统中常用的文件压缩工具。它的名字来源于 GNU zip,作为一个自由软件,它是 GNU 项目的一部分。gzip 命令通常用于压缩文件,以节省磁盘空间,或者减小文件的大小,以便于网络传输。 gzip 命…