(2024,街景生成,道路拓扑生成器,对象布局生成器,成分集成和天气生成)Text2Street:街景的可控文本到图像生成

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

Text2Street: Controllable Text-to-image Generation for Street Views

目录

0. 摘要

2. 相关工作

3. 方法

3.1. 概述

3.2. 车道感知的道路拓扑生成器

3.3. 基于位置的对象布局生成器

3.4. 多控图像生成器

4. 实验与结果


0. 摘要

文本到图像生成在扩散模型出现后取得了显著的进展。然而,基于文本生成街景图像仍然是一项困难的任务,主要是因为街景的道路拓扑结构复杂,交通状况多样,天气条件各异(如图 1 所示),这使得传统的文本到图像模型难以处理。为了解决这些挑战,我们提出了一种新颖的可控文本到图像框架,名为Text2Street。在该框架中,我们首先引入了具有车道感知的道路拓扑生成器,该生成器通过带有计数适配器的车道线进行文本到地图的生成,实现了可控的道路拓扑生成。然后,提出了基于位置的对象布局生成器,通过对象级边界框扩散策略实现了文本到布局的生成,实现了可控的交通对象布局生成。最后,设计了多控(multiple control)图像生成器,将道路拓扑、对象布局和天气描述集成在一起,实现了可控的街景图像生成。大量实验证明了所提方法实现了可控的街景文本到图像生成,并验证了 Text2Street 框架在街景中的有效性。

2. 相关工作

近年来,对于街景图像生成方法的研究出现了明显的增长。

  • SDM [31] 对语义布局和嘈杂图像进行了不同处理。它将嘈杂图像馈送到 U-Net [26] 结构的编码器中,而通过多层空间自适应归一化运算符将语义布局馈送到解码器中。
  • BEVGen [30] 合成一组真实且空间一致的周围图像,与交通场景的鸟瞰图 (bird’s-eye view,BEV) 布局相匹配。BEVGen 融入了一种具有空间注意设计的新型跨视图转换,学习摄像头和地图视图之间的关系以确保它们的一致性。
  • GeoDiffusion [6] 将各种几何条件转化为文本提示,并增强预训练的文本到图像扩散模型,用于高质量的检测数据生成,能够编码不仅包围框,还包括自动驾驶场景中的摄像机视图等额外的几何条件。
  • BEVControl [32] 提出了一种两阶段生成方法,能够生成准确的前景和背景内容。这些方法通常需要 BEV 地图、物体边界框或语义蒙版的输入来生成图像。

然而,几乎没有研究仅依赖文本生成街景图像的情况。本文主要关注解决街景文本到图像生成的问题。

3. 方法

为了解决街景文本到图像生成中的挑战(即复杂的道路拓扑结构、多样化的交通状况和各种各样的天气条件),我们引入了 Text2Street,这是一个在图 2 中示意的新颖的可控框架。在本节中,详细描述了该方法的细节。

3.1. 概述

Text2Street 以街景描述提示(例如,“一个带有十字路口、3 条车道、4 辆车和 1 辆卡车在晴天行驶的街景图像”)作为输入,并生成相应的街景图像。在主要过程之前,输入提示由大型语言模型(例如,GPT-4 [20])解析,以提取道路拓扑、交通状态和天气条件的描述,然后将其馈送到三个主要组件中:

  • 第一个组件是车道感知的道路拓扑生成器,它以道路拓扑描述(“十字路口、3条车道”)作为输入,并生成局部语义地图。
  • 第二个组件是基于位置的对象布局生成器,它以交通状态中的交通对象描述(“4辆车和1辆卡车”)作为输入,并生成交通对象布局。
  • 第三个组件是多控图像生成器,它以道路拓扑、对象布局和天气条件的描述(“晴天”)作为输入,并输出与原始街景描述提示相匹配的图像。

3.2. 车道感知的道路拓扑生成器

对于 Stable Diffusion [25],直接生成符合道路拓扑结构的图像,包括道路结构和车道拓扑,是困难的。为了解决这个问题,我们引入了车道感知的道路拓扑生成器(lane-aware road topology generator,LRTG),如图 3 所示。该生成器不直接生成道路图像;相反,它首先创建一个描述道路结构的本地语义地图,代表一个完整的区域级道路结构,包括可行驶区域、十字路口、人行道、斑马线等。同时,为了确保生成的车道线遵守交通规则(即等距和平行车道),我们在语义地图上对车道线进行表征和生成,这比直接在透视视图图像上生成车道线更容易和更可控。此外,为了确保车道线的数量与提供的文本一致,我们引入了一个计数适配器,用于精确生成指定数量的车道线。在 LRTG 中,我们仅生成语义地图,它作为街景图像的关键中介,如第 3.4 节中进一步详细描述。

在生成局部语义地图时,我们利用 Stable Diffusion 来根据 CLIP [21] 文本编码器对道路拓扑描述进行编码。随后,编码输入被馈送到 U-Net [26] 的交叉注意力层,以去噪图像潜变量,最终输出相应的语义地图。与 Stable Diffusion 一致,学习目标如下:

其中,x ∈ R^(H×W×3) 是从标记的语义地图中裁剪得到的 RGB 空间的给定图像,E(x) 指的是预训练自动编码器 [8] 的编码器,z = E(x) 代表编码图像的潜在变量,z_t 是来自时步 t 的前向扩散过程,y 是文本提示,τ(·) 代表预训练的 CLIP 文本编码器,ϵ 表示目标噪音,ϵθ(·) 表示用于预测噪音的时态条件 U-Net。这种方式确保在语义地图中合理生成道路结构和车道线形状。

为了精确控制车道线数量,计数适配器 f_CA 从 U-Net 的所有交叉注意力层中聚集注意力分数。然后,这些分数被整形以匹配相同的分辨率,然后平均以产生所有 token 的注意力特征。从这些注意力特征中,选择与 token “车道线” 相对应的特征 F_l。这些选定的特征经过两个卷积层(卷积核为3×3)和一个全连接层的进一步处理,用于预测车道线的数量 N_l。实现对车道线数量的精确控制的学习目标如下:

基于方程 1 和 2,LRTG 可以联合优化,生成包含所需道路结构和车道线的局部语义地图。

3.3. 基于位置的对象布局生成器

为了确保生成的图像能够呈现多样化的交通状况,我们利用大型语言模型将交通状态转化为交通对象的数量(例如,汽车、卡车、行人等)。然后,提出基于位置的对象布局生成器(POLG)来根据对象数量的文本描述创建对象布局,如图 4 所示。为了确保生成指定数量的对象,我们引入了一个对象级边界框扩散策略来生成对象边界框的位置。同时,为了确保生成的交通对象符合交通规则,我们将 LRTG 的局部语义地图纳入到框扩散过程中。通过POLG,我们生成交通对象的布局信息,这也作为生成最终街景图像的中介,如第 3.4 节中所介绍的。

在边界框扩散策略中,我们首先将交通对象表示为位置向量 Oi = [xi, yi, zi, li, wi, hi, ζi, ci](i = 1, 2, ..., N_o,N_o 是对象的数量),其中 xi, yi, zi 表示对象位置的坐标,li, wi, hi 表示对象的尺寸,ζi 表示对象的偏航角度(yaw angle),ci 表示对象的类别。随后,基于扩散模型 DDPM [14] 对位置向量进行扩散。此外,为了确保对象遵守交通规则(例如,汽车必须在道路上行驶而不能逆行),我们使用 ControlNet [33],将 LRTG 的局部语义地图作为控制输入到 POLG 中。最终的学习目标如下:

其中,o 表示对象的位置向量,ot 是来自时间步 t 的前向扩散过程,m 表示局部语义地图,C(·) 表示 ControlNet。其他符号与方程 1 中的符号一致。

基于方程 3,通过根据文本描述使用 POLG 生成符合交通状态的交通对象布局信息。

3.4. 多控图像生成器

为了生成与道路拓扑和交通状态一致的具有逼真天气的图像,我们引入了多控图像生成器(multiple control image generator,MCIG),如图 5 所示。在这两个信息进入 MCIG 之前,我们进行了摄像机姿态采样和图像投影,以有效利用先前生成的局部语义地图和交通对象布局。这导致了来自透视视图的 2D 道路语义掩模 M_r 和交通对象布局地图 M_o,如图 2 所示。2D 交通对象布局图也被表示为 2D 交通对象位置向量

投影使用基于内外参数的传统方法,其中内部参数使用固定的摄像机参数,而外部参数在先前摄像机高度附近进行采样。

如图 5 所示,MCIG 包括五个模块:对象级位置编码器、文本编码器、语义掩模 ControlNet、对象布局 ControlNet 和朴素 Stable Diffusion。前四个模块基于四种不同类型的信息控制图像生成,即2D 交通位置向量、描述天气的文本、2D 道路语义掩模和 2D 交通对象布局图。

对象级位置编码器对 2D 交通对象位置向量进行编码,包括 2D 边界框和对象类别,表示为:

边界框编码器将对象边界框映射到更高维度的空间,确保网络可以学习更高频率的映射函数并聚焦每个对象的位置。具体而言,边界框编码器是一个基于正弦和余弦的编码函数。编码函数的数学形式如下:

其中 BE(·) 应用于每个对象 P_i 的边界框的每个组件(即 x^1_i, y^1_i, x^2_i, y^2_i),L 被经验性地设定为 10。同时,类别编码器 CE 利用CLIP文本编码器对对象类别(例如,“car”)进行编码。随后,边界框编码和类别编码在每个对象的特征嵌入维度上进行串联。串联的特征然后通过一个两层全连接网络 f_PE(·) 映射到与原始文本编码器嵌入相同维度的特征,充当位置嵌入。基于 CLIP 文本编码器的文本编码器对天气描述文本 T 进行编码,生成文本嵌入。

对象位置编码和天气文本嵌入在标记维度上进行串联后,分别输入到 Stable Diffusion 的交叉注意力层,用于在图像生成过程中分别控制对象位置和天气。同时,语义掩模 ControlNet 和对象布局ControlNet 使用两个相似的 ControlNet,利用图像(即语义掩模和布局地图)作为输入,在街景图像生成过程中控制道路拓扑和对象布局。MCIG 的学习目标函数如下:

其中 P 是为了方便展示而设定的 {E(x), P, T, M_r, M_o, ε, t} 集合。

通过使用方程 6 对 MCIG 进行优化,我们得到符合有关道路拓扑、交通状况和天气状况的初始提示的街景图像。

4. 实验与结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/677135.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何将 Hexo 部署到 GitHub Pages

引言 在数字时代,拥有个人博客是展示自己想法、分享知识和技能的绝佳方式。Hexo 是一个基于 Node.js 的静态博客生成器,它结合了简洁性和功能性,让我们可以轻松地建立并维护一个博客。而 GitHub Pages 提供了一个免费的平台来托管这些静态网站…

【java】简单的Java语言控制台程序

一、用于文本文件处理的Java语言控制台程序示例 以下是一份简单的Java语言控制台程序示例,用于文本文件的处理。本例中我们将会创建一个程序,它会读取一个文本文件,显示其内容,并且对内容进行计数,然后将结果输出到控…

vue3跨组件(多组件)通信:事件总线【Event Bus】

★推荐方案:使用 events npm库; 可用范围:vue、react、angular等任何框架都可使用;且使用方式完全一致; 本文仅介绍、讲解对web页面端项目的常用API;通过events实现事件总线功能; event库概述&a…

交易之路:从无知到有知的五个阶段

交易是易学的,它的操作很直观,也是复杂的,它的价格很玄妙。在金融行业日益壮大的背景下,新人辈出,而弱者则逐渐退出。市场生态在不断变化,我们每个人在交易之路上所经历的种种,既清晰可见又模糊…

Flask实现异步调用sqlalchemy的模型类

事情是这样的,我这边需要在一次请求里面,搞一个异步不阻碍的任务,来执行耗时的操作。 一开始,我准备写的代码是这样的: from flask import Flask import time from concurrent.futures import ThreadPoolExecutorexec…

基于opencv-python模板匹配的银行卡号识别(附源码)

目录 介绍 数字模板处理 银行卡图片处理 导入数字模板 模板匹配及结果 介绍 我们有若干个银行卡图片和一个数字模板图片,如下图 我们的目的就是通过对银行卡图片进行一系列图像操作使得我们可以用这个数字模板检测出银行卡号。 数字模板处理 首先我们先对数…

WPF DispatcherTimer用法

System.Windows.Threading.DispatcherTimer 类主要用于WPF应用程序中进行周期性任务调度,并且保证这些任务在UI线程上执行。 这对于需要更新界面或与UI元素交互的定时操作非常有用,因为WPF的所有UI操作都必须在主线程(即Dispatcher线程&…

【开源】SpringBoot框架开发桃花峪滑雪场租赁系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 游客服务2.2 雪场管理 三、数据库设计3.1 教练表3.2 教练聘请表3.3 押金规则表3.4 器材表3.5 滑雪场表3.7 售票表3.8 器材损坏表 四、系统展示五、核心代码5.1 查询教练5.2 教练聘请5.3 查询滑雪场5.4 滑雪场预定5.5 新…

实践:微服务版本升级步骤以及maven仓库相关概念

进行微服务开发的时候&#xff0c;上层服务依赖于下层的服务的api&#xff0c;比如适配属于上层服务&#xff0c;用户属于下层服务。 例子: 上层服务 <!--订单管理微服务api依赖--> <dependency><groupId>com.jn.server</groupId><artifactId>…

One time pad 图像加密MATLAB程序

使用一次加密的形式对图像进行加密。 采用异或的方式实现。 加密、解密结果如下: 程序代码如下: % 读取原始图像并显示 originalImage = imread(lena256.bmp); % 更换为你的图像文件名 subplot(1,3,1),imshow(originalImage); title(Original Image);% 生成与图像相同大…

低代码市场的未来展望:趋势、机遇与挑战

根据 Zoho 的一项新研究&#xff0c;低代码市场正处于成为主流的风口浪尖。该报告对全球 800 多名 IT 和业务领导者进行了调查&#xff0c;确定了推动其采用的几个因素。其中最重要的是提高应用程序的开发速度。 这一发现对企业领导者来说应该不足为奇。 客户、合作伙伴和员工…

SQL持续更新中

问: 什么是SQL&#xff1f; 答: Structured Query Language 结构化查询语言&#xff1b;其实就是定义了操作所有关系型数据库的规则。每一种数据库操作的方式存在不一样的地方&#xff0c;称为 方言。 通用语法 SQL 语句可以单行或多行书写&#xff0c;以分号结尾。可使用空格…

2.7 Binance_interface APP 现货交易-限价单开仓

Binance_interface APP 现货交易-限价单开仓 Github地址PyTed量化交易研究院 目录 Binance_interface APP 现货交易-限价单开仓1. APP 现货交易-限价单开仓函数总览2. 模型实例化3. 同步 非堵塞 限价开仓&#xff08;购买&#xff09;4. 同步 堵塞 限价开仓&#xff08;购买&a…

linux进程(进程状态)

目录 前言&#xff1a; 正文&#xff1a; 1.R运行状态&#xff08;running&#xff09; 2.睡眠状态&#xff08;sleeping&#xff09; 3.D磁盘休眠状态&#xff08;Disk sleep&#xff09; 4停止状态&#xff08;stop&#xff09; 5僵尸状态&#xff08;Z&#xff09; …

从零开始学HCIA之NAT基本工作原理

1、NAT设计之初的目的是解决IP地址不足的问题&#xff0c;慢慢地其作用发展到隐藏内部地址、实现服务器负载均衡、完成端口地址转换等功能。 2、NAT完成将IP报文报头中的IP地址转换为另一个IP地址的过程&#xff0c;主要用于实现内部网络访问外部网络的功能。 3、NAT功能一般…

C#系列-C#访问FTP服务器实现上传下载(8)

FTP Server是什么&#xff1f; FTP Server&#xff08;File Transfer Protocol Server&#xff09;&#xff0c;即文件传输协议服务器&#xff0c;是在互联网上提供文件存储和访问服务的计算机。它依照FTP协议提供服务&#xff0c;专门用来传输文件。 FTP Server允许不同的客…

攻防世界 CTF Web方向 引导模式-难度1 —— 11-20题 wp精讲

PHP2 题目描述: 暂无 根据dirsearch的结果&#xff0c;只有index.php存在&#xff0c;里面也什么都没有 index.phps存在源码泄露&#xff0c;访问index.phps 由获取的代码可知&#xff0c;需要url解码(urldecode )后验证id为admin则通过 网页工具不能直接对字母进行url编码 …

SolidWorks学习笔记——入门知识2

目录 建出第一个模型 1、建立草图 2、选取中心线 3、草图绘制 4、拉伸 特征的显示与隐藏 改变特征名称 5、外观 6、渲染 建出第一个模型 1、建立草图 图1 建立草图 按需要选择基准面。 2、选取中心线 图2 选取中心线 3、草图绘制 以对称图形举例&#xff0c;先画出…

函数高级(C++)

师从黑马程序员 函数默认参数 在C中&#xff0c;函数的形参列表中的形参是可以有默认值的 语法&#xff1a;返回值类型 函数名 &#xff08;参数默认值 {}&#xff09; #include <iostream> using namespace std;//函数默认参数//如果我们自己传入数据&#xff0c;…

点云从入门到精通技术详解100篇-非结构化道路下无人平台路径规划与运动控制

目录 前言 路径规划方法研究现状 传统规划算法 智能规划算法 规划方法比较