公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)
Text2Street: Controllable Text-to-image Generation for Street Views
目录
0. 摘要
2. 相关工作
3. 方法
3.1. 概述
3.2. 车道感知的道路拓扑生成器
3.3. 基于位置的对象布局生成器
3.4. 多控图像生成器
4. 实验与结果
0. 摘要
文本到图像生成在扩散模型出现后取得了显著的进展。然而,基于文本生成街景图像仍然是一项困难的任务,主要是因为街景的道路拓扑结构复杂,交通状况多样,天气条件各异(如图 1 所示),这使得传统的文本到图像模型难以处理。为了解决这些挑战,我们提出了一种新颖的可控文本到图像框架,名为Text2Street。在该框架中,我们首先引入了具有车道感知的道路拓扑生成器,该生成器通过带有计数适配器的车道线进行文本到地图的生成,实现了可控的道路拓扑生成。然后,提出了基于位置的对象布局生成器,通过对象级边界框扩散策略实现了文本到布局的生成,实现了可控的交通对象布局生成。最后,设计了多控(multiple control)图像生成器,将道路拓扑、对象布局和天气描述集成在一起,实现了可控的街景图像生成。大量实验证明了所提方法实现了可控的街景文本到图像生成,并验证了 Text2Street 框架在街景中的有效性。
2. 相关工作
近年来,对于街景图像生成方法的研究出现了明显的增长。
- SDM [31] 对语义布局和嘈杂图像进行了不同处理。它将嘈杂图像馈送到 U-Net [26] 结构的编码器中,而通过多层空间自适应归一化运算符将语义布局馈送到解码器中。
- BEVGen [30] 合成一组真实且空间一致的周围图像,与交通场景的鸟瞰图 (bird’s-eye view,BEV) 布局相匹配。BEVGen 融入了一种具有空间注意设计的新型跨视图转换,学习摄像头和地图视图之间的关系以确保它们的一致性。
- GeoDiffusion [6] 将各种几何条件转化为文本提示,并增强预训练的文本到图像扩散模型,用于高质量的检测数据生成,能够编码不仅包围框,还包括自动驾驶场景中的摄像机视图等额外的几何条件。
- BEVControl [32] 提出了一种两阶段生成方法,能够生成准确的前景和背景内容。这些方法通常需要 BEV 地图、物体边界框或语义蒙版的输入来生成图像。
然而,几乎没有研究仅依赖文本生成街景图像的情况。本文主要关注解决街景文本到图像生成的问题。
3. 方法
为了解决街景文本到图像生成中的挑战(即复杂的道路拓扑结构、多样化的交通状况和各种各样的天气条件),我们引入了 Text2Street,这是一个在图 2 中示意的新颖的可控框架。在本节中,详细描述了该方法的细节。
3.1. 概述
Text2Street 以街景描述提示(例如,“一个带有十字路口、3 条车道、4 辆车和 1 辆卡车在晴天行驶的街景图像”)作为输入,并生成相应的街景图像。在主要过程之前,输入提示由大型语言模型(例如,GPT-4 [20])解析,以提取道路拓扑、交通状态和天气条件的描述,然后将其馈送到三个主要组件中:
- 第一个组件是车道感知的道路拓扑生成器,它以道路拓扑描述(“十字路口、3条车道”)作为输入,并生成局部语义地图。
- 第二个组件是基于位置的对象布局生成器,它以交通状态中的交通对象描述(“4辆车和1辆卡车”)作为输入,并生成交通对象布局。
- 第三个组件是多控图像生成器,它以道路拓扑、对象布局和天气条件的描述(“晴天”)作为输入,并输出与原始街景描述提示相匹配的图像。
3.2. 车道感知的道路拓扑生成器
对于 Stable Diffusion [25],直接生成符合道路拓扑结构的图像,包括道路结构和车道拓扑,是困难的。为了解决这个问题,我们引入了车道感知的道路拓扑生成器(lane-aware road topology generator,LRTG),如图 3 所示。该生成器不直接生成道路图像;相反,它首先创建一个描述道路结构的本地语义地图,代表一个完整的区域级道路结构,包括可行驶区域、十字路口、人行道、斑马线等。同时,为了确保生成的车道线遵守交通规则(即等距和平行车道),我们在语义地图上对车道线进行表征和生成,这比直接在透视视图图像上生成车道线更容易和更可控。此外,为了确保车道线的数量与提供的文本一致,我们引入了一个计数适配器,用于精确生成指定数量的车道线。在 LRTG 中,我们仅生成语义地图,它作为街景图像的关键中介,如第 3.4 节中进一步详细描述。
在生成局部语义地图时,我们利用 Stable Diffusion 来根据 CLIP [21] 文本编码器对道路拓扑描述进行编码。随后,编码输入被馈送到 U-Net [26] 的交叉注意力层,以去噪图像潜变量,最终输出相应的语义地图。与 Stable Diffusion 一致,学习目标如下:
其中,x ∈ R^(H×W×3) 是从标记的语义地图中裁剪得到的 RGB 空间的给定图像,E(x) 指的是预训练自动编码器 [8] 的编码器,z = E(x) 代表编码图像的潜在变量,z_t 是来自时步 t 的前向扩散过程,y 是文本提示,τ(·) 代表预训练的 CLIP 文本编码器,ϵ 表示目标噪音,ϵθ(·) 表示用于预测噪音的时态条件 U-Net。这种方式确保在语义地图中合理生成道路结构和车道线形状。
为了精确控制车道线数量,计数适配器 f_CA 从 U-Net 的所有交叉注意力层中聚集注意力分数。然后,这些分数被整形以匹配相同的分辨率,然后平均以产生所有 token 的注意力特征。从这些注意力特征中,选择与 token “车道线” 相对应的特征 F_l。这些选定的特征经过两个卷积层(卷积核为3×3)和一个全连接层的进一步处理,用于预测车道线的数量 N_l。实现对车道线数量的精确控制的学习目标如下:
基于方程 1 和 2,LRTG 可以联合优化,生成包含所需道路结构和车道线的局部语义地图。
3.3. 基于位置的对象布局生成器
为了确保生成的图像能够呈现多样化的交通状况,我们利用大型语言模型将交通状态转化为交通对象的数量(例如,汽车、卡车、行人等)。然后,提出基于位置的对象布局生成器(POLG)来根据对象数量的文本描述创建对象布局,如图 4 所示。为了确保生成指定数量的对象,我们引入了一个对象级边界框扩散策略来生成对象边界框的位置。同时,为了确保生成的交通对象符合交通规则,我们将 LRTG 的局部语义地图纳入到框扩散过程中。通过POLG,我们生成交通对象的布局信息,这也作为生成最终街景图像的中介,如第 3.4 节中所介绍的。
在边界框扩散策略中,我们首先将交通对象表示为位置向量 Oi = [xi, yi, zi, li, wi, hi, ζi, ci](i = 1, 2, ..., N_o,N_o 是对象的数量),其中 xi, yi, zi 表示对象位置的坐标,li, wi, hi 表示对象的尺寸,ζi 表示对象的偏航角度(yaw angle),ci 表示对象的类别。随后,基于扩散模型 DDPM [14] 对位置向量进行扩散。此外,为了确保对象遵守交通规则(例如,汽车必须在道路上行驶而不能逆行),我们使用 ControlNet [33],将 LRTG 的局部语义地图作为控制输入到 POLG 中。最终的学习目标如下:
其中,o 表示对象的位置向量,ot 是来自时间步 t 的前向扩散过程,m 表示局部语义地图,C(·) 表示 ControlNet。其他符号与方程 1 中的符号一致。
基于方程 3,通过根据文本描述使用 POLG 生成符合交通状态的交通对象布局信息。
3.4. 多控图像生成器
为了生成与道路拓扑和交通状态一致的具有逼真天气的图像,我们引入了多控图像生成器(multiple control image generator,MCIG),如图 5 所示。在这两个信息进入 MCIG 之前,我们进行了摄像机姿态采样和图像投影,以有效利用先前生成的局部语义地图和交通对象布局。这导致了来自透视视图的 2D 道路语义掩模 M_r 和交通对象布局地图 M_o,如图 2 所示。2D 交通对象布局图也被表示为 2D 交通对象位置向量
投影使用基于内外参数的传统方法,其中内部参数使用固定的摄像机参数,而外部参数在先前摄像机高度附近进行采样。
如图 5 所示,MCIG 包括五个模块:对象级位置编码器、文本编码器、语义掩模 ControlNet、对象布局 ControlNet 和朴素 Stable Diffusion。前四个模块基于四种不同类型的信息控制图像生成,即2D 交通位置向量、描述天气的文本、2D 道路语义掩模和 2D 交通对象布局图。
对象级位置编码器对 2D 交通对象位置向量进行编码,包括 2D 边界框和对象类别,表示为:
边界框编码器将对象边界框映射到更高维度的空间,确保网络可以学习更高频率的映射函数并聚焦每个对象的位置。具体而言,边界框编码器是一个基于正弦和余弦的编码函数。编码函数的数学形式如下:
其中 BE(·) 应用于每个对象 P_i 的边界框的每个组件(即 x^1_i, y^1_i, x^2_i, y^2_i),L 被经验性地设定为 10。同时,类别编码器 CE 利用CLIP文本编码器对对象类别(例如,“car”)进行编码。随后,边界框编码和类别编码在每个对象的特征嵌入维度上进行串联。串联的特征然后通过一个两层全连接网络 f_PE(·) 映射到与原始文本编码器嵌入相同维度的特征,充当位置嵌入。基于 CLIP 文本编码器的文本编码器对天气描述文本 T 进行编码,生成文本嵌入。
对象位置编码和天气文本嵌入在标记维度上进行串联后,分别输入到 Stable Diffusion 的交叉注意力层,用于在图像生成过程中分别控制对象位置和天气。同时,语义掩模 ControlNet 和对象布局ControlNet 使用两个相似的 ControlNet,利用图像(即语义掩模和布局地图)作为输入,在街景图像生成过程中控制道路拓扑和对象布局。MCIG 的学习目标函数如下:
其中 P 是为了方便展示而设定的 {E(x), P, T, M_r, M_o, ε, t} 集合。
通过使用方程 6 对 MCIG 进行优化,我们得到符合有关道路拓扑、交通状况和天气状况的初始提示的街景图像。