1、Multi-Space Alignments Towards Universal LiDAR Segmentation
中文标题:多空间对齐向通用激光雷达分割推进
简介:这篇论文提出了一种名为M3Net的框架,旨在实现通用的激光雷达数据分割。这个框架能够在多任务、多数据集和多模态的激光雷达数据上进行分割,而只需使用一个统一的参数集。为了充分利用大量异构的驾驶数据,论文首先将不同传感器在多个场景下采集的数据进行整合,然后在训练过程中对数据、特征和标签空间进行对齐。这样,M3Net能够有效地利用这些异构数据,训练出强大且通用的激光雷达分割模型,非常适用于自动驾驶的感知任务。大量的实验验证了该方法的有效性,在几个公开数据集上都取得了出色的分割结果。值得一提的是,使用统一的参数集,M3Net分别在SemanticKITTI、nuScenes和Waymo Open数据集上达到了75.1%、83.1%和72.4%的mIoU指标。
2、Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models
中文标题:通过概念重新对齐提升干预措施在概念瓶颈模型中的成效
简介:这篇论文介绍了概念瓶颈模型(CBMs),它以人类可理解的概念为基础进行图像分类,从而实现可解释的模型决策。CBMs的设计天然允许人工干预,用户可以修改概念选择来影响模型输出,使其更加可解释。
然而,现有方法通常需要对每张图像进行多次人工干预才能达到较高性能,这在人工反馈成本高昂的情况下存在实际挑战。研究发现,这主要是由于干预过程中各概念独立处理的问题,一个概念的修改并不影响模型对其他概念的使用。
为解决这一问题,本文提出可训练的概念干预重新对齐模块,利用概念之间的关系,在干预后对概念分配进行重新调整。实验结果表明,概念重新对齐显著提高了干预效果,大幅减少了达到目标性能所需的干预次数。这种降低人机协作成本的方法,对于提高CBMs在资源受限环境中的应用前景非常重要。
3、LocInv: Localization-aware Inversion for Text-Guided Image Editing
中文标题:LocInv: 基于定位的文本引导图像编辑反演
简介:大规模的文本到图像(T2I)扩散模型展现了基于文本提示的显著图像生成能力。基于T2I扩散模型,文本引导的图像编辑旨在让用户通过修改文本提示来操纵生成的图像。然而,现有的图像编辑技术容易编辑超出预期目标区域的非预期区域,主要是由于交叉注意力映射的不准确性。
为解决这个问题,研究人员提出了一种局部感知反演(LocInv)方法。LocInv利用分割图或边界框作为额外的定位先验,在扩散过程的去噪阶段优化交叉注意力映射。通过动态更新文本输入中名词单词对应的标记,LocInv强制交叉注意力映射与文本提示中正确的名词和形容词单词紧密对齐。
基于这种技术,LocInv实现了对特定对象的细粒度图像编辑,同时防止对其他区域的不必要更改。研究人员在COCO数据集的子集上广泛评估了LocInv,并在定量和定性分析中获得了优秀的结果。代码将在https://github.com/wangkai930418/DPL发布。