DA-CLIP论文阅读笔记

在这里插入图片描述

  • 这是ICLR2024的一篇用VLM做multi-task image restoration的论文
  • 首页图看起来就很猛啊,一个unified模型搞定10个任务:
    在这里插入图片描述
  • 文章的贡献点主要是两个,一个是提出一个利用Image Controller,CLIP,cross-attention 和 diffusion restoration network 来实现 unified image restoration 的框架,一个是提出了一个数据集,有10种 degradation types 同时配有 hig-quality 的 synthetic captions。
  • 文章提出的框架如下图所示,要train的是两个东西,一个是image controller,一个是restoration network:
    在这里插入图片描述
  • Image controller的作用是从corrupted image feature 变成 high quality image feature,同时输出degradation type。train好的controller可以用来提取degradation prompt,同时把image encoder的特征变成HQ的特征,prompt用来指导restoration 的diffusion,HQ特征用来和diffusion的特征算cross attention,从而实现一个unified 模型解决multi-task restoration。
  • Image Controller是从CLIP copy过来的一个image encoder,和CLIP 的image encoder之间用全连接相连,全连接初始化为0(Adding conditional control to text-to-image diffusion models),对CLIP image encoder的影响是通过残差的方式,直接加到每一层上面去:
    在这里插入图片描述
  • train这个模型用的是对比损失,需要的数据集是LQ图片,对应每张LQ图片需要有两个text,一个是对LQ图片内容的clean描述,即描述中不包含degradation,一个是degradation的描述,损失如下。其实就是对controller的两个输出分别算损失,degradation prompt的输出要和degradation的描述提取的text feature计算对比损失,controller控制到的image encoder的输出要和clean的描述提取的text feature计算对比损失:
    在这里插入图片描述
    在这里插入图片描述
  • train完这个模块,只需要把从LQ上提取到的图像特征和text特征注入到diffusion的网络中作为输入之一,在包括多种degradation的成对数据集上train这个diffusion网络即可,注入的方法和使用的网络都是现有的工作(包括用作diffusion模型的IR-SDE(Image restoration with mean-reverting stochastic differential equations),用了这个工作的cross attention(High-resolution image synthesis with latent diffusion models)),文章就没有仔细介绍。text特征在注入前用了prompt learning(Learning to prompt for visionlanguage models)的方式,加了个模块才注入:
    在这里插入图片描述

实验结果

  • 首先确实是有效的,从两点可以证明,一点是相比没有加DA-CLIP的baseline模型,性能是提高了的。第二点是相比直接用原来的CLIP提取的特征进行cross attention,用DA-CLIP提取的特征进行cross attention效果更好(没有加degradation prompt)。文章其实做了非常非常多的实验,感兴趣可以自己去论文中看,直观感受是虽然通用性是提高了,但是每个任务上的性能其实并不是很高,从Figure8就可以看出来无论是inpainting还是denoising,效果都并不是很好。
  • 此外,我比较好奇的是,这样一种unified image restoration的思路,能不能在训练完后,对混合视觉增强,即一张图上同时有多种degradation,来实现restoration呢。从附录本文给的LIMITATION可以看到,作者认为是不能的,证据是一张有阴影的雨图,模型只进行了去雨,没有把阴影去掉。说明prompt并没有混合degradation,而是体现了效应最明显的degradation。
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用elementUI的form表单校验时,错误提示位置异常解决方法

问题 最近在做项目时遇到一个问题&#xff0c;使用elementUI的Descriptions 描述列表与form表单校验时&#xff0c;遇到校验信息显示的位置不对&#xff0c;效果如图&#xff1a; 期望显示在表格中。 效果 代码 html <el-form :model"form":rules"rules…

深入解析文华量化交易策略---交易指令如何选择

随着金融投资的迅猛发展&#xff0c;自动化策略模型已逐渐成为现代投资领域的一股重要力量。量化交易模型均以数据为驱动&#xff0c;通过运用数学模型和算法&#xff0c;对期货、黄金等投资市场走势进行精准预测和高效交易。 艾云策略整理了量化策略相关资料&#xff0c;希望通…

浅谈后端boot框架整合第三方技术JUnit MyBatis Druid整体思想

整合第三方技术 不要单单学习指定技术与springboot整合的方式 学习目标的是整合整体的技术的思路 拿到任何一个第三方技术后我们在springboot中如何操作 这是真正我们应该学习的东西 以后能整合任意技术 整合JUnit JUnit 是一个流行的开源测试框架&#xff0c;用于 Java …

如何快速复现NEJM文章亚组分析森林图?

现在亚组分析好像越来越流行&#xff0c;无论是观察性研究还是RCT研究&#xff0c;亚组分析一般配备森林图。 比如下方NEJM这张图&#xff0c;配色布局都比较经典美观&#xff01; 但是在使用R语言绘制时&#xff0c;想要绘制出同款森林图&#xff0c;少不了复杂参数进行美化调…

windows安装kafka环境

1.安装jdk8 参考教程java8安装教程_java8u371安装教程-CSDN博客 下载kafak安装包&#xff1a; kafka_2.12-3.6.1.tgz 解压&#xff1a; 启动ZooKeeper软件&#xff0c;kafka内部已近集成了该软件。 进入Kafka解压缩文件夹的config目录&#xff0c;修改zookeeper.properti…

傲软抠图一款专为抠图打造的AI智能抠图应用,智能识别人物物体抠图软件,无广vip版 v1.8.1

软件介绍 傲软抠图&#xff0c;作为一款高度专业化的智能人工智能图片处理软件&#xff0c;被设计专门用于执行精确的图像提取功能。该程序利用其先进的算法能动地识别和分辨图像中的人物或物体轮廓&#xff0c;并能够从原始图片材料中分离出带有透明背景的目标图像。除了自动…

GIT 新建分支和合并分支

文章目录 前言一、新建分支二、切回老分支&#xff0c;保留新分支的更改三、合并分支 前言 本文主要针对以下场景进行介绍&#xff1a; 场景一&#xff1a;创建新的分支 当前分支(dev_1)已经开发完毕&#xff0c;下一期的需求需要在新分支(dev_2)上进行开发&#xff0c;如何创…

[机缘参悟-187] - 《道家-水木然人间清醒1》读书笔记 - 真相本质 -10- 关系界限 - 一个人只有放下自我,才能看清世界的真相

目录 一、现实生活中&#xff0c;每个人都是盲人摸象 二、一个人认知的本质是神经网络的模型训练 三、每个人的认知具有局限 四、放下自我&#xff0c;就是跳出自我的认知局限 五、站在上帝的视角&#xff0c;俯瞰不同众生的千差万别的大脑认知系统 六、个体的独特性&…

【Linux】信号>信号产生信号处理信号保存信号详解

主页&#xff1a;醋溜马桶圈-CSDN博客 专栏&#xff1a;Linux_醋溜马桶圈的博客-CSDN博客 gitee&#xff1a;mnxcc (mnxcc) - Gitee.com 目录 1.信号入门 1.1 生活角度的信号 1.2 技术应用角度的信号 1.3 信号概念 1.4 信号处理常见方式概览 2.产生信号 2.1 通过终端按键…

打包要求 minCompileSdk 使用指定版本及以上

我当前的 compileSdkVersion 30&#xff0c;因为依赖了 androidx.core:core:1.9.0 它要求最低 compileSdkVersion 33。 那么如果我不想升级 compileSdkVersion 应该怎么办&#xff1f; 答&#xff1a;当然是降低 core:core 版本&#xff01; 看看谁依赖了这两个版本 android…

CAN笔记第二篇,车载测试继续学起来!

在CAN协议中&#xff0c;“帧”是一个包含完整信息的独立单元&#xff0c;它具有特定的格式和结构&#xff0c;以确保数据在CAN总线上的可靠传输。这里的“帧”字可以理解为&#xff1a; 完整性&#xff1a;一个帧包含了所有必要的信息&#xff0c;从起始到结束&#xff0c;都遵…

# 分布式链路追踪_skywalking_学习(2)

分布式链路追踪_skywalking_学习&#xff08;2&#xff09; 一、分布式链路追踪_skywalking &#xff1a;Rpc 调用监控 1、Skywalking(6.5.0) 支持的 Rpc 框架有以下几种&#xff1a; Dubbo 2.5.4 -> 2.6.0Dubbox 2.8.4Apache Dubbo 2.7.0Motan 0.2.x -> 1.1.0gRPC 1.…

excel数据导入到数据库的方法(二)

以前写了一篇excel导入数据到数据库的文章&#xff0c;是先将excel导入到datatable中在进行批量插入操作&#xff0c;实现数据的导入工作&#xff1b;最近在写一个上传数据服务时&#xff0c;发现有些许问题&#xff0c;在此予以更正&#xff0c;问题描述&#xff1a; 就会报异…

计算机网络基础 - 计算机网络和因特网(1)

计算机网络基础 计算机网络和因特网什么是 Internet?具体构造的的角度服务角度网络结构 网络边缘网络核心电路交换分组交换概述排队时延和分组丢失转发表和路由选择协议按照有无网络层的连接 分组交换 VS 电路交换 接入网DSL 因特网接入电缆因特网接入光纤到户 FTTH无线接入网…

MySQL数据源不停机迁移到AWS RDS MySQL

就在近期&#xff0c;谷歌云捅了个大篓子&#xff0c;误删除了一家投资公司&#xff08;Unisuper&#xff0c;管理着800亿美元基金&#xff09;在谷歌云所有地域的所有数据&#xff0c;删得相当彻底&#xff0c;连备份数据都没给人家留一个。 Unisuper 是一家澳大利亚退休金基…

C++-逻辑语句

if语句 基本格式&#xff1a; 只有判断结果为true&#xff0c;才会执行后续{}内的代码 if (要执行的判断&#xff0c;结果需是bool型) {判断结果true&#xff0c;才会执行的代码; }if (条件判断) { 如果判断结果为true&#xff0c;会执行的代码; }else{如果判断结果为false…

外卖小程序开发指南:从源码开始构建高效的外卖平台

今天&#xff0c;笔者将为您详细讲解如何从源码开始构建一个高效的外卖小程序&#xff0c;帮助您快速进入这一蓬勃发展的市场。 一、需求分析与设计 需求分析包括&#xff1a; 1.用户需求 2.市场需求 3.技术需求 二、前端开发 以下是开发步骤&#xff1a; -使用微信开发…

封装了一个iOS中间放大的collectionView layout

效果图如下所示 原理&#xff1a;就是首先确定一个放大和缩小系数和原大小对应的基准位置&#xff0c;然后根据距离每个布局属性到视图中心的距离和基准点到中心的距离的差距/基准点到中心的距离&#xff0c; 计算出每个布局属性的缩放系数 下面是代码 // // LBHorizontalCe…

英语学习笔记22——Give me/him/her/us/them a .... Which one?

Give me/him/her/us/them a … Which one? 给我/他/她/我们/他们一个…… 哪一个&#xff1f; 词汇 Vocabulary empty a. 空的&#xff0c;啥也没有的    v. 倒空 例句&#xff1a;这个盒子是空的。    This box is empty.    这是个空盒子。    This is an emp…

学习笔记——STM32F103V3版本——HC-05模块控制数码管

一.硬件 1.HC-05模块 2.数码管 3.连接硬件 二.在keil5中的代码 main.c代码&#xff1a; #include "stm32f10x.h" #include "buletooth.h" #include "led.h" #include "sys.h" #include "usart.h" #include "delay.…