TopNet-(CVPR2023)前背景图像合成

文章目录

  • 摘要
  • 引言
  • 算法
    • 架构
    • 结构
    • 损失函数
  • 实验
    • 数据集
    • 评估
    • SOTA比较
    • 模型是否过拟合到修复区域
    • 泛化到真实图片
    • 消融实验
  • 讨论及结论
    • 限制
  • 参考文献

摘要

作者调研自动放置目标到背景进行图像合成的问题。提供背景图、分割的目标,训练模型预测合理放置信息(位置及尺寸)。当前工作主要是生成候选框或者使用滑窗搜索,但是不能在背景图中建模局部信息。本文通过transformer学习目标特征与所有局部背景特征之间相关性。稀疏对比损失用于进一步训练模型。通过网络前向生成3D heatmap表明所有合理位置/尺度组合。训练时可以使用具体标注也可使用现有inpaint模型,已超过SOTA方法。用户研究表明训练的模型可泛化到真实图片。

引言

在这里插入图片描述
如图1,现有方法【26】直接预测多个变换或边界框,表明提供目标的位置和尺度,但仅推荐top,不提供其他可能位置及尺度。【29】使用检索模型评估给定位置的合理性,并以滑动窗口的方式评估位置和尺度的网格,这导致推理速度慢
本文作者提出的TopNet,将目标放置转化为稠密点预测问题:通过一次网络前向生成包含位置、尺度的稠密网格评估。之前方法仅在全局层级结合前景及背景,而TopNet学习全局前景特征与局部背景特征之间相关性,可高效评估所有可能放置位置。
作者训练TopNet时仅提供一个边界框,因此使用稀疏对比损失,真值位置/尺寸有一个相对高的得分,同时最小化其他组合及比真值得分高的组合,通过在预测的3D热度图上寻找局部最大值生成候选边界框位置。
本文贡献:
1、一种新颖的基于transformer的结构建模目标图与来自背景图的局部信息之间相关关系;
2、稀疏对比损失训练稠密预测网络;
3、在inpaint数据集和标定数据集充分实验验证达到SOTA

算法

架构

提供一张背景 I b I_b Ib及前景 I o I_o Io,模型预测的3D热度图 H H H c = 16 c=16 c=16表示尺度值s,0.15-0.9,间隔0.05,每个空间位置与放置边界框的中心有关。
推理时,首先对 H H H归一化,寻找top-1或top-k候选框。

结构

如图2,使用两个编码器学习背景和目标特征,为确定特定位置的目标尺寸是否合适,背景图中局部信息可提供细节信息,因此保留来自背景encoder中最后一个卷积层或transformer层的局部特征/token;对于前景相对简单,保留全局特征。
使用多层transformer学习目标全局特征与背景局部特征之间相关性class token替换为目标全局特征,最后一层所有patch token送入上采样decoder;对于transformer降采样后的特征进行concat及reshape,而后经过4个卷积层进行上采样。
在这里插入图片描述

损失函数

通过mask原始目标后进行修复,生成纯背景图,从而构造训练集。损失函数第一项Lcon如式1,
在这里插入图片描述
真值处得分最大,其中对于真值附近的点,M为0,其余位置为0.1;损失函数第二项Lrange,如式2,
在这里插入图片描述
鼓励H的最低分趋近于0,防止谋学位置预测得分高。整体损失函数L=Lcon+Lrange

实验

数据集

在这里插入图片描述
Pixabay:使用LAMA进行目标擦除,对于图中少于3个目标的图片,额外增加一个mask,如图4,防止模型过拟合到修复的物体。训练集367, 384对,测试集41, 166
OPA训练集21, 350,测试集3, 566。

评估

Top-k IOU:top k个候选框与真值框iou的最大值
Normalized Score:热度图归一化后,在真值处的得分应该相对高,因此计算NS均值以及NS高于一定阈值的百分比

SOTA比较

Regression表示直接预测真值框;
†Retrieval表示通过检索寻找合理位置;
Classifier表示通过分类器预测合成图是否合理,为检索方案的进一步扩充;
PlaceNet表示通过对抗训练预测框是否合理。
表1展示top-5 IOU评估结果,该方法远超过现有方法,同时速度也比较快
在这里插入图片描述
表2、表3表示对应真值位置NS结果及iou结果;
在这里插入图片描述

模型是否过拟合到修复区域

图5表明模型未过拟合到LAMA修复区域。
在这里插入图片描述

泛化到真实图片

图6展示几个有挑战性目标放入背景示例,本文所提方法效果更出色;
在这里插入图片描述
表4展示本文方法生成图片满意度更高;
在这里插入图片描述

消融实验

表5展示稀疏对比损失性能提升明显;
在这里插入图片描述
表6表示Local Atten效果最佳。
在这里插入图片描述
Global Only表示concat全局背景及前景特征;
Local Concat表示concat全局目标特征及每个局部背景特征;
Local Atten表示通过transformer结合全局前景特征及局部背景特征

图7为可视化展示前景token与局部背景token之间attention;16个热度图展示不同尺度目标推荐不同位置
在这里插入图片描述

讨论及结论

TopNet通过transformer结合目标特征及局部背景特征,预测目标尺度及放置位置,超越现有SOTA方法,并且在真实图片具有泛化性。

限制

  • 未考虑光照、阴影、遮挡等信息;
  • 依赖于修复网络构建数据集,与真实图存gap

参考文献

[26] Lingzhi Zhang, Tarmily Wen, Jie Min, Jiancong Wang, David Han, and Jianbo Shi. Learning object placement by in- painting for compositional data augmentation. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow,UK, August 23–28, 2020, Proceedings, Part XIII 16, pages 566–581. Springer, 2020. 1, 2, 6, 7
[29] Sijie Zhu, Zhe Lin, Scott Cohen, Jason Kuen, Zhifei Zhang, and Chen Chen. Gala: Toward geometry-and- lighting-aware object search for compositing. arXiv preprint arXiv:2204.00125, 2022. 1, 2, 5, 6, 7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/166158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript文档加载和文档准备的区别

你可能已经听说过JavaScript中的“文档加载”和“文档准备”这两个术语。虽然它们听起来很相似,但它们实际上有一些重要的区别。在本文中,我们将深入探讨这两个概念的区别,以及它们在实际编码中的应用。 引言 在开始讨论JS文档加载和文档准备…

批量添加PPT备注

我一直都觉得,用python高效办公,是件没必要的事。。。 但直到最近写课做PPT,做了80多页PPT,要把每一页PPT的备注粘贴进去时 我觉得,有什么关系呢,一页一页粘 但是粘到5页,我感觉ctlc\v频率有点儿…

程序员接单,宝藏好平台抄底攻略清单!五大平台精选。

前阵子“双十一”购物节狂欢促销,各种好货清单席卷而来。 程序员购不购物我不知道,但是这个兼职、接单清单相信你一定用得着。 搜罗海量信息,整理大量数据与评价,挖出了5个宝藏平台,绝对个个精选,保证量大…

图片转换成pdf格式的软件ABBYY16

ABBYY PDF这款提供多种图像处理选项,可提高源图像的质量,便于准确地识别光学字符。我们扫描纸质文档或从图像文件创建 PDF 时,务必选择合适的图像处理选项。而在ABBYY PDF 中包含下列图像处理选项。 识别文本 — 选择此选项会将文本层放在图…

(保姆级教程)Mysql中索引、触发器、存储过程、存储函数的概念、作用,以及如何使用索引、存储过程,代码操作演示

讲解 MySQL 中索引、触发器、存储过程、存储函数的使用 文章目录 1. 索引1.1 索引的分类1.2 索引的设计原则1.3 如何使用(create index) 2. 触发器2.1 触发器的分类2.2 如何使用(create trigger) 3. 存储过程3.1 如何使用&#xf…

SpringBoot调用HTTP接口

1. RestTemplate 首先引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency> 编写配置类 Configuration public class RestTemplateConfig {Beanpublic Re…

Git拉取远程仓库代码覆盖本地,也就是放弃本地修改

git撤销本地 、强制拉取远程代码覆盖本地-CSDN博客 说的最多的是用&#xff1a;git fetch --all 但是亲测是无效的&#xff0c;并不能将本地不存在但远程仓库存在的文件取回来。就是git fetch 项目地址&#xff0c;也是没用的&#xff01; 就算是重新pull整个项目&#xff0…

Django中间件

目录 一.介绍 1.什么是Django中间件 2.作用&#xff1a; 3.示例 二.Django请求生命周期流程图 三.Django中间件是Django的门户 四.中间件方法 1.必须掌握的中间件方法 &#xff08;1&#xff09;process_request: 示例&#xff1a; 2.需要了解的中间件方法 &#x…

新生儿散光:原因、科普和注意事项

引言&#xff1a; 散光是一种常见的眼睛问题&#xff0c;虽然在新生儿时期相对较少见&#xff0c;但了解其原因、科普相关知识&#xff0c;并提供一些建议的注意事项&#xff0c;对于婴儿的视力健康至关重要。本文将深入探讨新生儿散光的原因、相关科普知识&#xff0c;并为父…

大厂前沿技术导航

百度Geek说 - 知乎 腾讯技术 - 知乎 美团技术团队

YaRN方法:无需微调,高效扩展语言模型上下文窗口/蚂蚁集团与浙大发布原生安全框架v1.0,引领企业网络安全新时代 |魔法半周报

我有魔法✨为你劈开信息大海❗ 高效获取AIGC的热门事件&#x1f525;&#xff0c;更新AIGC的最新动态&#xff0c;生成相应的魔法简报&#xff0c;节省阅读时间&#x1f47b; &#x1f525;资讯预览 YaRN方法&#xff1a;无需微调&#xff0c;高效扩展语言模型上下文窗口 蚂蚁…

2023 hnust 湖南科技大学 信息安全管理课程 期中考试 复习资料

前言 ※老师没画重点的补充内容★往年试卷中多次出现或老师提过的&#xff0c;很可能考该笔记是奔着及格线去的&#xff0c;不是奔着90由于没有听过课&#xff0c;部分知识点不一定全&#xff0c;答案不一定完全正确 题型 试卷有很多题是原题 判断题&#xff08;PPT&#xff…

python-冒泡排序

冒泡排序 &#xff08;稳定&#xff09; O(n^2) (稳定&#xff1a;表示相等的数&#xff0c;相对位置会不会改变) 冒泡排序&#xff08;Bubble Sort&#xff09;是一种简单的排序算法&#xff0c;它通过多次遍历待排序的元素&#xff0c;比较相邻两个元素的大小并交换它们&…

Kafka 常用功能总结(不断更新中....)

kafka 用途 业务中我们经常用来两个方面 1.发送消息 2.发送日志记录 kafka 结构组成 broker&#xff1a;可以理解成一个单独的服务器&#xff0c;所有的东西都归属到broker中 partation&#xff1a;为了增加并发度而做的拆分&#xff0c;相当于把broker拆分成不同的小块&…

党建信息管理系统源码 支持在线交党费 附带完整的搭建教程

传统的党建管理模式通常采用手工方式&#xff0c;不仅效率低下&#xff0c;而且容易出错。随着组织规模的扩大和党员数量的增加&#xff0c;这种管理方式已经无法满足现实需求。此外&#xff0c;传统的党建管理模式缺乏在线交党费功能&#xff0c;给党员带来不便。因此&#xf…

Kubernetes 离线部署 Spinnaker

离线部署 Spinnaker 离线部署 spinnaker 需要提前准备以下依赖项 halyard 安装工具&#xff1a;该hal命令的apt源地址https://us-apt.pkg.dev/projects/spinnaker-community位于国外halyard boms物料清单&#xff1a;Spinnaker 将其halyard boms配置存储在公共谷歌云存储 ( g…

Divisibility Trick

Dmitry最近学会了一个简单的规则来检查一个整数是否可以被3整除。如果一个整数的位数之和可以被3整除&#xff0c;那么它就可以被3所整除。 后来他还了解到&#xff0c;同样的规则也可以用来检查一个整数是否可以被9整除。如果一个整数的位数之和可以被9整除&#xff0c;那么它…

如何在 Web 应用程序中查找端点?

如何在 Web 应用程序中查找端点? 这篇文章主要讲述了如何在网络应用中找到端点。以下是文章的主要要点: 端点是网络服务的访问地址,通过引用这个URL,客户可以访问服务提供的操作。端点提供了寻址Web服务端点所需的信息。 HTTP消息是服务器和客户端之间交换数据的方式,包…

Anaconda深度学习环境配置命令参考

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 Anaconda深度学习环境配置 Anaconda 管理1. 检查 Anaconda 版本2. 获取版本号3. 列出所有的虚拟环境4. 查看环境管理的全部命令帮助5. conda升级6. conda升级后释放空间 Anac…

2024免费MacBook清理工具CleanMyMac X4.15

CleanMyMac X 是一款专业的Mac清理软件&#xff0c;可智能清理mac磁盘垃圾和多余语言安装包&#xff0c;快速释放电脑内存&#xff0c;轻松管理和升级 Mac 上的应用。同时 CleanMyMac X 可以强力卸载恶意软件&#xff0c;修复系统漏洞&#xff0c;一键扫描和优化 Mac 系统&…