（2024，街景生成，道路拓扑生成器，对象布局生成器，成分集成和天气生成）Text2Street：街景的可控文本到图像生成

公和众和号：EDPJ（进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群）

Text2Street: Controllable Text-to-image Generation for Street Views

0. 摘要

2. 相关工作

3. 方法

3.1. 概述

3.2. 车道感知的道路拓扑生成器

3.3. 基于位置的对象布局生成器

3.4. 多控图像生成器

4. 实验与结果

0. 摘要

文本到图像生成在扩散模型出现后取得了显著的进展。然而，基于文本生成街景图像仍然是一项困难的任务，主要是因为街景的道路拓扑结构复杂，交通状况多样，天气条件各异（如图 1 所示），这使得传统的文本到图像模型难以处理。为了解决这些挑战，我们提出了一种新颖的可控文本到图像框架，名为Text2Street。在该框架中，我们首先引入了具有车道感知的道路拓扑生成器，该生成器通过带有计数适配器的车道线进行文本到地图的生成，实现了可控的道路拓扑生成。然后，提出了基于位置的对象布局生成器，通过对象级边界框扩散策略实现了文本到布局的生成，实现了可控的交通对象布局生成。最后，设计了多控（multiple control）图像生成器，将道路拓扑、对象布局和天气描述集成在一起，实现了可控的街景图像生成。大量实验证明了所提方法实现了可控的街景文本到图像生成，并验证了 Text2Street 框架在街景中的有效性。

2. 相关工作

近年来，对于街景图像生成方法的研究出现了明显的增长。

SDM [31] 对语义布局和嘈杂图像进行了不同处理。它将嘈杂图像馈送到 U-Net [26] 结构的编码器中，而通过多层空间自适应归一化运算符将语义布局馈送到解码器中。
BEVGen [30] 合成一组真实且空间一致的周围图像，与交通场景的鸟瞰图 (bird’s-eye view，BEV) 布局相匹配。BEVGen 融入了一种具有空间注意设计的新型跨视图转换，学习摄像头和地图视图之间的关系以确保它们的一致性。
GeoDiffusion [6] 将各种几何条件转化为文本提示，并增强预训练的文本到图像扩散模型，用于高质量的检测数据生成，能够编码不仅包围框，还包括自动驾驶场景中的摄像机视图等额外的几何条件。
BEVControl [32] 提出了一种两阶段生成方法，能够生成准确的前景和背景内容。这些方法通常需要 BEV 地图、物体边界框或语义蒙版的输入来生成图像。

然而，几乎没有研究仅依赖文本生成街景图像的情况。本文主要关注解决街景文本到图像生成的问题。

3. 方法

为了解决街景文本到图像生成中的挑战（即复杂的道路拓扑结构、多样化的交通状况和各种各样的天气条件），我们引入了 Text2Street，这是一个在图 2 中示意的新颖的可控框架。在本节中，详细描述了该方法的细节。

3.1. 概述

Text2Street 以街景描述提示（例如，“一个带有十字路口、3 条车道、4 辆车和 1 辆卡车在晴天行驶的街景图像”）作为输入，并生成相应的街景图像。在主要过程之前，输入提示由大型语言模型（例如，GPT-4 [20]）解析，以提取道路拓扑、交通状态和天气条件的描述，然后将其馈送到三个主要组件中：

第一个组件是车道感知的道路拓扑生成器，它以道路拓扑描述（“十字路口、3条车道”）作为输入，并生成局部语义地图。
第二个组件是基于位置的对象布局生成器，它以交通状态中的交通对象描述（“4辆车和1辆卡车”）作为输入，并生成交通对象布局。
第三个组件是多控图像生成器，它以道路拓扑、对象布局和天气条件的描述（“晴天”）作为输入，并输出与原始街景描述提示相匹配的图像。

3.2. 车道感知的道路拓扑生成器

对于 Stable Diffusion [25]，直接生成符合道路拓扑结构的图像，包括道路结构和车道拓扑，是困难的。为了解决这个问题，我们引入了车道感知的道路拓扑生成器（lane-aware road topology generator，LRTG），如图 3 所示。该生成器不直接生成道路图像；相反，它首先创建一个描述道路结构的本地语义地图，代表一个完整的区域级道路结构，包括可行驶区域、十字路口、人行道、斑马线等。同时，为了确保生成的车道线遵守交通规则（即等距和平行车道），我们在语义地图上对车道线进行表征和生成，这比直接在透视视图图像上生成车道线更容易和更可控。此外，为了确保车道线的数量与提供的文本一致，我们引入了一个计数适配器，用于精确生成指定数量的车道线。在 LRTG 中，我们仅生成语义地图，它作为街景图像的关键中介，如第 3.4 节中进一步详细描述。

在生成局部语义地图时，我们利用 Stable Diffusion 来根据 CLIP [21] 文本编码器对道路拓扑描述进行编码。随后，编码输入被馈送到 U-Net [26] 的交叉注意力层，以去噪图像潜变量，最终输出相应的语义地图。与 Stable Diffusion 一致，学习目标如下：

其中，x ∈ R^(H×W×3) 是从标记的语义地图中裁剪得到的 RGB 空间的给定图像，E(x) 指的是预训练自动编码器 [8] 的编码器，z = E(x) 代表编码图像的潜在变量，z_t 是来自时步 t 的前向扩散过程，y 是文本提示，τ(·) 代表预训练的 CLIP 文本编码器，ϵ 表示目标噪音，ϵθ(·) 表示用于预测噪音的时态条件 U-Net。这种方式确保在语义地图中合理生成道路结构和车道线形状。

为了精确控制车道线数量，计数适配器 f_CA 从 U-Net 的所有交叉注意力层中聚集注意力分数。然后，这些分数被整形以匹配相同的分辨率，然后平均以产生所有 token 的注意力特征。从这些注意力特征中，选择与 token “车道线” 相对应的特征 F_l。这些选定的特征经过两个卷积层（卷积核为3×3）和一个全连接层的进一步处理，用于预测车道线的数量 N_l。实现对车道线数量的精确控制的学习目标如下：

基于方程 1 和 2，LRTG 可以联合优化，生成包含所需道路结构和车道线的局部语义地图。

3.3. 基于位置的对象布局生成器

为了确保生成的图像能够呈现多样化的交通状况，我们利用大型语言模型将交通状态转化为交通对象的数量（例如，汽车、卡车、行人等）。然后，提出基于位置的对象布局生成器（POLG）来根据对象数量的文本描述创建对象布局，如图 4 所示。为了确保生成指定数量的对象，我们引入了一个对象级边界框扩散策略来生成对象边界框的位置。同时，为了确保生成的交通对象符合交通规则，我们将 LRTG 的局部语义地图纳入到框扩散过程中。通过POLG，我们生成交通对象的布局信息，这也作为生成最终街景图像的中介，如第 3.4 节中所介绍的。

在边界框扩散策略中，我们首先将交通对象表示为位置向量 Oi = [xi, yi, zi, li, wi, hi, ζi, ci]（i = 1, 2, ..., N_o，N_o 是对象的数量），其中 xi, yi, zi 表示对象位置的坐标，li, wi, hi 表示对象的尺寸，ζi 表示对象的偏航角度（yaw angle），ci 表示对象的类别。随后，基于扩散模型 DDPM [14] 对位置向量进行扩散。此外，为了确保对象遵守交通规则（例如，汽车必须在道路上行驶而不能逆行），我们使用 ControlNet [33]，将 LRTG 的局部语义地图作为控制输入到 POLG 中。最终的学习目标如下：

其中，o 表示对象的位置向量，ot 是来自时间步 t 的前向扩散过程，m 表示局部语义地图，C(·) 表示 ControlNet。其他符号与方程 1 中的符号一致。

基于方程 3，通过根据文本描述使用 POLG 生成符合交通状态的交通对象布局信息。

3.4. 多控图像生成器

为了生成与道路拓扑和交通状态一致的具有逼真天气的图像，我们引入了多控图像生成器（multiple control image generator，MCIG），如图 5 所示。在这两个信息进入 MCIG 之前，我们进行了摄像机姿态采样和图像投影，以有效利用先前生成的局部语义地图和交通对象布局。这导致了来自透视视图的 2D 道路语义掩模 M_r 和交通对象布局地图 M_o，如图 2 所示。2D 交通对象布局图也被表示为 2D 交通对象位置向量

投影使用基于内外参数的传统方法，其中内部参数使用固定的摄像机参数，而外部参数在先前摄像机高度附近进行采样。

如图 5 所示，MCIG 包括五个模块：对象级位置编码器、文本编码器、语义掩模 ControlNet、对象布局 ControlNet 和朴素 Stable Diffusion。前四个模块基于四种不同类型的信息控制图像生成，即2D 交通位置向量、描述天气的文本、2D 道路语义掩模和 2D 交通对象布局图。

对象级位置编码器对 2D 交通对象位置向量进行编码，包括 2D 边界框和对象类别，表示为：

边界框编码器将对象边界框映射到更高维度的空间，确保网络可以学习更高频率的映射函数并聚焦每个对象的位置。具体而言，边界框编码器是一个基于正弦和余弦的编码函数。编码函数的数学形式如下：

其中 BE(·) 应用于每个对象 P_i 的边界框的每个组件（即 x^1_i, y^1_i, x^2_i, y^2_i），L 被经验性地设定为 10。同时，类别编码器 CE 利用CLIP文本编码器对对象类别（例如，“car”）进行编码。随后，边界框编码和类别编码在每个对象的特征嵌入维度上进行串联。串联的特征然后通过一个两层全连接网络 f_PE(·) 映射到与原始文本编码器嵌入相同维度的特征，充当位置嵌入。基于 CLIP 文本编码器的文本编码器对天气描述文本 T 进行编码，生成文本嵌入。

对象位置编码和天气文本嵌入在标记维度上进行串联后，分别输入到 Stable Diffusion 的交叉注意力层，用于在图像生成过程中分别控制对象位置和天气。同时，语义掩模 ControlNet 和对象布局ControlNet 使用两个相似的 ControlNet，利用图像（即语义掩模和布局地图）作为输入，在街景图像生成过程中控制道路拓扑和对象布局。MCIG 的学习目标函数如下：