图像处理新框架 | 语义与复原指令双引擎,谷歌研究院提出文本驱动图像处理框架TIP

本文首发: AIWalker
欢迎关注AIWalker,底层视觉与基础AI技术

https://arxiv.org/abs/2312.14091
https://github.com/Picsart-AI-Research/HD-Painter

基于文本到图像扩散模型的空前成功,文本引导图像修复的最新进展已经可以生成非常逼真和视觉上合理的结果。 然而,当前的文本到图像修复模型仍有很大的改进潜力,特别是在更好地将修复区域与用户提示对齐以及执行高分辨率修复

在本文中,我们介绍了HD-Painter,这是一种完全无需训练的方法,可以准确地遵循提示并连贯地缩放到高分辨率图像修复

  • 我们设计了智能感知内向注意(PAIntA)层,通过提示信息提高自我注意力分数,并产生更好的文本对齐生成
  • 为了进一步提高提示一致性,我们引入了重新加权注意力分数指导(RASG)机制无缝集成到DDIM的一般形式,以防止分布外的潜在移位的事后采样策略
  • 此外,HD-Painter通过引入为修复定制的专用超分辨率技术,允许扩展到更大的规模,从而能够完成高达2K分辨率的图像中的缺失区域

我们的实验表明,HD-Painter在质量和数量上都超过了现有的最先进的方法,实现了令人印象深刻的61.4%对51.9%的生成精度提高。

本文方案

所提出方案由两个阶段组成:

  • 在分辨率H/4 × W/4上应用文本引导图像修复。为了根据给定的提示τ来完成缺失区域M,我们采用了一个预先训练好的修复扩散模型,比如Stable Insaining,用PAIntA层代替自我注意层,并通过应用我们的RASG机制来执行向后扩散过程。 在得到最终估计的潜在x0之后,将其解码,从而产生修复图像 I l o w c = D ( x 0 ) ∈ R H / 4 × W / 4 I_{low}^c = \mathcal{D}(x_0) \in R^{H/4 \times W/4} Ilowc=D(x0)RH/4×W/4.

  • 对生成的内容进行特定于修复的×4超分辨率。为了修复原始大小的图像 I ∈ R H × W I ∈ R^{H×W} IRH×W,我们StableDiffusion-SR进行超分处理。 我们应用SD的扩散后向过程,从 X T ∼ N ( 0 , 1 ) X_T \sim N(0,1) XTN01开始,并以低分辨率修复图像 I l o w c I^c_{low} Ilowc为条件。 在每一步之后,我们将去噪后的 X 0 p r e d X_0^{pred} X0pred与原始图像的编码 E ( I ) \mathcal{E}(I) EI进行混合并得到 X t − 1 X_{t-1} Xt1. 在通过解码器对隐变量完成解码后,我们进一步采用泊松融合进一步消除伪影。

本文实验

如上表所示,我们的方法在所有三个指标上都优于竞争对手。 特别是,我们在所有竞争对手中提高了超过1.5分的CLIP分数,并达到了61.4%的生成准确度(Acc),而其他最先进的方法为51.9%。 此外,PickScore比较显示我们在整体质量方面也优于竞争对手。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++面试:linux系统性能监控命令的使用

目录 1. top 2. vmstat 3. iostat 4. mpstat 5. netstat 6. sar 7. htop 8. dstat 9. free 10. lsof 11. pidstat 12. nmon 13. iftop 14. glances 面试准备小贴士 在Linux系统管理和故障排查中,使用性能监控工具是非常重要的。这些工具可以帮助你理…

centos7部署单机项目和自启动

centos7部署单机项目和服务器自启动 1.安装jdk和tomact1.1上传jdk、tomcat安装包1.2解压两个工具包1.3.配置并且测试jdk安装1.4.启动tomcat1.5.防火墙设置1.6配置tomcat自启动 2.安装mysql2.1卸载mariadb,否则安装MySql会出现冲突(先查看后删除再查看)2.2在线下载My…

【爬虫逆向实战篇】定位加密参数、断点调试与JS代码分析

文章目录 1. 写在前面2. 确认加密参数3. 加密参数定位4. XHR断点调试 【作者主页】:吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向…

python-分享篇-用python制作九宫格切图器

文章目录 代码效果 代码 import tkinter as tk from PIL import Image,ImageTk import sys import tkinter.filedialog#先将图片填充为正方形 def fill_image(image): width, height image.size #比较图片的宽和高,选取值较大的作为新图的宽 newImage_width wid…

仿12306校招项目-项目业务和架构

目录 业务图 用户管理 业务难点 1. 如何确定用户注册信息的真实性 2. 面对亿级用户量 3. 支持多种登录方式会造成读请求扩散,需要解决用户定位问题 4. 高并发场景下缓存穿透问题需要有效解决,避免数据库压力过大 5. 明文存储用户敏感信息会造成安…

抽象的java

Consider defining a bean of type org.springframework.mail.MailSender in your configuration. 报错原因: 第一个:未安装对应的依赖 第二个:对应配置问题 背景:用springboot-java完成邮箱发送 第一个问题解决方法&#xff1…

实战一个 Jenkins 构建 CI/CD流水线 的简单配置过程哈

引言:上一期我们讲述了gitlabCI/CD工具的介绍,工具之争,本期我们介绍Jenkins CI/CD 目录 一、Jenkins介绍 1、Jenkins概念 2、Jenkins目的 3、特性 4、产品发布流程 二、安装Jenkins 1、安装JDK 2、安装Jenkins 1、上传压缩包 2、…

Spark之【数据倾斜】

Spark程序运行变慢,十有八九出现了数据倾斜。那么什么是数据倾斜、导致数据倾斜的原因以及如何克服它以保持Spark应用程序的最佳性能呢? 什么是数据倾斜? Apache Spark中的数据倾斜指的是,在处理的数据其在不同分区之间分布不均…

基于django的购物商城系统

摘要 本文介绍了基于Django框架开发的购物商城系统。随着电子商务的兴起,购物商城系统成为了许多企业和个人创业者的首选。Django作为一个高效、稳定且易于扩展的Python web框架,为开发者提供了便捷的开发环境和丰富的功能模块,使得开发购物商…

spring security 防止已经完成认证的会话再次访问login页面

版本 spring-security:6.2.1 方案 添加过滤器检查会话认证信息,如果包含非匿名用户的认证信息则调用认证成功处理器 final static String URL_LOGIN "/login"; final AuthenticationSuccessHandler authenticationSuccessHandler new SavedRequestA…

GEE入门篇|遥感专业术语(实践操作3):时间分辨率(Temporal Resolution)

目录 时间分辨率(Temporal Resolution) 1.Landsat 2.Sentinel-2 时间分辨率(Temporal Resolution) 时间分辨率是指特定传感器图像流的重访时间或时间节奏,重访时间是指卫星连续访问地球表面同一位置…

小迪安全30WEB 攻防-通用漏洞SQL 注入CTF二次堆叠DNS 带外

#知识点: 1、数据库堆叠注入 根据数据库类型决定是否支持多条语句执行 2、数据库二次注入 应用功能逻辑涉及上导致的先写入后组合的注入 3、数据库 Dnslog 注入 解决不回显(反向连接),SQL 注入,命令执行,SSRF 等 4、黑盒模式分析以上 二次注入&…

创作纪念日:记录我的成长与收获

机缘 一开始是在我深入学习前端知识的Vue.js框架遇到了一个问题,怎么都解决不了,心烦意乱地来csdn上找解决方法。开心的是真被我找到了,真的很感恩,也意识到在这个平台上分享自己的经验是多么有意义的事情,可能随便的…

BRIA.AI开源最强AI一键抠图模型RMBG,超简上手体验

本文首发: AIWalker 欢迎关注AIWalker,近距离接触底层视觉与基础AI技术 近日,BRIA.AI团队于HuggingFace开源了一个基于ISNet背景移除模型RMBG-1.4,它可以有效对前景与背景进行分离。RMBG-1.4在精心构建的数据集上训练而来,该数据包…

C++指针变量的引用

C中的指针变量引用是指使用引用来访问指针所指向的内存地址中的值。这种技术可以简化对指针所指向的对象的访问,并提高代码的可读性。 要创建指针变量的引用,可以使用以下语法: int* ptr; // 声明一个指针变量 int*& ref ptr; // 创建…

ElasticSearch报错解决

最近在学习ES的一些东西,遇到了一些问题,整理一下,希望可以帮助到也在学习ES的小伙伴 1、问题1 报错场景: 单机启动多ES集群 报错信息: [2024-02-24T22:58:10,567][WARN ][o.e.t.RemoteClusterService] [cluster0no…

django rest framework 学习笔记-实战商城

01项目环境搭建_哔哩哔哩_bilibili 本博客借鉴至大佬的视频学习笔记 # 创建项目 django-admin startproject MyShop# 创建app E:\desktop\my_drf\MyShop>django-admin startapp goodsE:\desktop\my_drf\MyShop>django-admin startapp orderE:\desktop\my_drf\MyShop>…

代码随想录算法训练营day39 | 62.不同路径、63. 不同路径 II

62.不同路径 dp数组以及下标的含义:dp[i][j]代表到达第i行第j列有多少条不同的路径递推公式:dp[i][j] dp[i][j-1] dp[i-1][j]dp数组初始化:dp[0][:] 1 dp[:][0] 1遍历顺序:从前往后遍历举例推导dp数组: 按照这种…

springboot+vue项目基础开发(16)主页面布局

主页面代码,在view下面创建mainLayout.vue <script setup> import{Management,Promotion,UserFilled,User,Crop,EditPen,SwitchButton,CaretBottom } from @element-plus/icons-vue

【洛谷 P8706】[蓝桥杯 2020 省 AB1] 解码 题解(模拟+输入输出)

[蓝桥杯 2020 省 AB1] 解码 题目描述 小明有一串很长的英文字母&#xff0c;可能包含大写和小写。 在这串字母中&#xff0c;有很多连续的是重复的。小明想了一个办法将这串字母表达得更短&#xff1a;将连续的几个相同字母写成字母 出现次数的形式。 例如&#xff0c;连续…