1、Connecting NeRFs, Images, and Text
中文标题:连接 NeRF、图像和文本
简介:神经辐射场(NeRFs)已经成为表示3D场景和物体的标准框架,引入了一种新的数据类型用于信息交换和存储。与此同时,多模态表示学习在文本和图像数据方面取得了显著进展。本文探索了一个新的研究方向,旨在将NeRF模态与其他模态相连接,类似于已有的图像和文本方法。为此,我们提出了一个简单的框架,利用预训练的NeRF表示模型以及用于文本和图像处理的多模态模型。我们的框架学习了NeRF嵌入和相应的图像和文本嵌入之间的双向映射。这种映射开启了几个新的和有用的应用,包括NeRF的零样本分类和从图像或文本中检索NeRF的能力。
2、GoMVS: Geometrically Consistent Cost Aggregation for Multi-View Stereo
中文标题:GoMVS:多视图立体的几何一致成本聚合
简介:在基于学习的多视角立体网络中,匹配代价聚合起着重要的作用。然而,直接聚合相邻代价可能导致局部几何不一致,从而产生次优的结果。现有的方法要么选择性地进行聚合,要么提高在二维空间中的聚合深度,但这两种方法都无法有效处理代价体中的几何不一致。在本文中,我们提出了一种称为GoMVS的方法,通过聚合具有几何一致性的代价,更好地利用相邻几何信息。具体而言,我们引入了几何一致传播(GCP)模块,通过利用局部几何平滑性和表面法线,将相邻代价对应和传播到参考像素。GCP模块使用表面法线计算从相邻深度假设空间到参考深度空间的对应关系,然后利用这些对应关系将相邻代价传播到参考几何中,并最终进行卷积聚合。我们的方法在DTU、Tanks & Temple和ETH3D数据集上取得了最新的最佳性能。值得注意的是,在Tanks & Temple Advanced基准测试中,我们的方法名列第一。
3、OpenBias: Open-set Bias Detection in Text-to-Image Generative Models
中文标题:OpenBias:文本到图像生成模型中的开放集偏差检测
简介:文本到图像生成模型越来越受欢迎,对普通公众而言也越来越易获取。由于这些模型正在大规模部署,因此有必要深入研究它们的安全性和公平性,以避免传播和持续任何形式的偏见。然而,现有的研究主要集中于检测预先定义的封闭偏见集,这限制了研究范围仅局限于众所周知的概念。在本文中,我们解决了文本到图像生成模型中开放式偏见检测的挑战,提出了一种名为OpenBias的新方法,它能够独立于先前编译的集合,识别和量化偏见的严重程度。OpenBias方法由三个阶段组成。首先,在大型语言模型(LLM)的基础上,我们根据一组标题提出偏见。其次,目标生成模型使用同样的标题生成图像。最后,一个视觉问答模型用于检测之前提出的偏见的存在和程度。我们研究了Stable Diffusion 1.5、2和XL的行为,强调了以前未研究过的新偏见。通过定量实验,我们证明OpenBias方法与当前的封闭集偏见检测方法和人类判断保持一致。