1、An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
中文标题:一张图像的价值超过 16x16 的补丁:在单个像素上探索 Transformers
简介:这项工作并非介绍一种新的方法,而是呈现了一项有趣的发现,对现代计算机视觉架构中局部性的归纳偏置的必要性提出了质疑。具体而言,我们发现普通的Transformer可以直接将每个像素视为一个标记,并取得高性能的结果。这与流行的Vision Transformer的设计有很大的区别,后者保留了从ConvNets到局部邻域的归纳偏置(例如将每个16x16的补丁视为一个标记)。我们主要展示了在计算机视觉中,将像素作为标记的有效性,经过深入研究的三个任务:监督学习中的目标分类、自监督学习中的掩码自编码,以及图像生成中使用的扩散模型。虽然直接操作单个像素在计算上并不实际,但我们认为,在设计下一代计算机视觉神经架构时,社区必须意识到这一令人惊讶的发现。
2、Real2Code: Reconstruct Articulated Objects via Code Generation
中文标题:Real2Code:通过代码生成重建铰接对象
简介:我们提出了一种名为Real2Code的全新方法,通过代码生成来重建关节式物体。给定一个物体的视觉观察,我们首先利用图像分割模型和形状完成模型的部分几何形状重建。然后,我们使用定向边界框来表示物体的各个部件,并将其输入到经过微调的大型语言模型(LLM)中,以预测关节运动的代码。借助预训练的视觉和语言模型,我们的方法能够优雅地适用于具有不同数量关节式部件的物体,并且可以从合成训练数据推广到实际环境中的非结构化物体。实验结果表明,Real2Code在重建精度方面明显优于先前的最先进技术,并且是第一个能够处理具有多达10个关节式部件的物体,并推广到训练集中未见过的物体结构复杂度的方法。此外,当与立体重建模型结合使用时,Real2Code还能够从少量多视角RGB图像中重建实际物体,而无需深度或相机信息。
3、Depth Anything V2
简介:本文介绍了Depth Anything V2,旨在揭示构建强大的单目深度估计模型的关键发现,而不是追求华丽的技术。与V1相比,这个版本通过三个关键实践获得了更加精细和稳健的深度预测:1)使用合成图像替代所有标记的真实图像,2)增加我们教师模型的容量,3)通过大规模伪标记真实图像的桥梁教授学生模型。相较于最新的基于稳定扩散的模型,我们的模型更加高效(速度提高了10倍以上)且更准确。我们提供了不同规模的模型,参数范围从25M到1.3B,以适应广泛的场景。鉴于其强大的泛化能力,我们使用度量深度标签对它们进行微调,以获得我们的度量深度模型。除了模型本身,我们还构建了一个多功能的评估基准,包含精确的注释和多样的场景,以促进未来的研究,考虑到当前测试集的有限多样性和频繁噪声。