1、DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data
中文标题:DiffusionMTL:从部分注释的数据中学习多任务去噪扩散模型
简介:最近,人们对于从部分标注数据中学习多个密集场景理解任务的实际问题越来越感兴趣。在这些任务中,每个训练样本仅标记了任务的一个子集,因此在训练过程中存在任务标签的缺失,这导致预测质量下降且存在噪声,这一点在最先进的方法中也可观察到。
为了克服这个问题,我们将部分标记的多任务密集预测重新定义为像素级去噪问题,并提出了一种名为DiffusionMTL的新的多任务去噪扩散框架。该框架设计了一种联合扩散和去噪范式,以模拟任务预测或特征映射中的潜在噪声分布,并为不同任务生成校正输出。为了利用去噪过程中的多任务一致性,我们进一步引入了多任务调节策略,该策略可以隐式地利用任务之间的互补性来帮助学习未标记任务,从而提高不同任务的去噪性能。
通过广泛的定量和定性实验,我们证明了所提出的多任务去噪扩散模型可以显著提高多任务预测映射,并在两个不同的部分标记评估设置下优于三个具有挑战性的多任务基准的最先进方法。我们的代码可在https://prismformore.github.io/diffusionmtl/上获取。
2、LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models
中文标题:LLaVA-PruMerge:高效大型多模态模型的自适应令牌缩减
简介:连接视觉编码器和大型语言模型的大型多模型(LMMs)展现了令人瞩目的推理能力。通常,LMMs使用固定数量的视觉令牌作为前缀内容,例如来自CLIP视觉编码器倒数第二层特征。然而,最近的LMMs开始涉及更复杂的视觉输入,如高分辨率图像和视频,这导致视觉令牌的数量显著增加。然而,由于Transformer架构的设计,随着输入令牌数量增加,这些模型的计算成本往往呈二次增长。
为了解决这个问题,我们研究了一种令牌减少机制,并发现与之前的工作相似,许多视觉令牌在空间上是多余的。基于这一发现,我们提出了一种创新的自适应视觉令牌减少方法,名为PruMerge,它可以显著减少视觉令牌的数量,同时保持可比较的模型性能。我们首先根据视觉令牌与类令牌和空间令牌的相似性选择未修剪的视觉令牌。然后,我们根据关键相似性对修剪后的令牌进行聚类,并将聚类后的令牌与未修剪的令牌合并,以补充其信息。
在实验中,当应用于LLaVA-1.5时,我们的方法平均可以将视觉令牌压缩14.4倍,并在各种视觉问答和推理任务中实现可比较的性能。我们的代码和检查点可在https://llava-prumerge.github.io/ 上获取。
3、LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis
中文标题:LATTE3D:大规模摊销文本到增强型 3D 合成
简介:最近的文本到三维生成方法展示出令人印象深刻的三维结果,但需要耗费大量时间进行优化,每个提示可能需要长达一个小时的时间。像ATT3D这样的分摊方法可以同时优化多个提示,提高效率,以实现快速的文本到三维合成。然而,这些方法无法捕捉高频几何和纹理细节,并且难以扩展到大型提示集,因此它们的泛化能力较差。
为了解决这些限制,我们引入了LATTE3D,它能够快速、高质量地生成更大规模提示集上的三维合成。我们的方法具有两个关键点:首先,我们构建了可扩展的架构;其次,在优化过程中利用三维数据,通过三维感知扩散先验、形状正则化和模型初始化,实现对多样化和复杂训练提示的鲁棒性。
LATTE3D分摊神经场和纹理表面生成,能够在单个前向传递中生成高度详细的纹理网格。LATTE3D能够在400毫秒内生成3D对象,并且可以通过快速的测试时间优化进一步增强。通过我们的方法,我们能够克服传统方法中的限制,实现快速生成高质量的三维结果,并扩展到更大的提示集。