CV每日论文--2024.6.21

1、An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

中文标题：一张图像的价值超过 16x16 的补丁：在单个像素上探索 Transformers

简介：这项工作并非介绍一种新的方法，而是呈现了一项有趣的发现，对现代计算机视觉架构中局部性的归纳偏置的必要性提出了质疑。具体而言，我们发现普通的Transformer可以直接将每个像素视为一个标记，并取得高性能的结果。这与流行的Vision Transformer的设计有很大的区别，后者保留了从ConvNets到局部邻域的归纳偏置（例如将每个16x16的补丁视为一个标记）。我们主要展示了在计算机视觉中，将像素作为标记的有效性，经过深入研究的三个任务：监督学习中的目标分类、自监督学习中的掩码自编码，以及图像生成中使用的扩散模型。虽然直接操作单个像素在计算上并不实际，但我们认为，在设计下一代计算机视觉神经架构时，社区必须意识到这一令人惊讶的发现。

2、Real2Code: Reconstruct Articulated Objects via Code Generation

中文标题：Real2Code：通过代码生成重建铰接对象

简介：我们提出了一种名为Real2Code的全新方法，通过代码生成来重建关节式物体。给定一个物体的视觉观察，我们首先利用图像分割模型和形状完成模型的部分几何形状重建。然后，我们使用定向边界框来表示物体的各个部件，并将其输入到经过微调的大型语言模型（LLM）中，以预测关节运动的代码。借助预训练的视觉和语言模型，我们的方法能够优雅地适用于具有不同数量关节式部件的物体，并且可以从合成训练数据推广到实际环境中的非结构化物体。实验结果表明，Real2Code在重建精度方面明显优于先前的最先进技术，并且是第一个能够处理具有多达10个关节式部件的物体，并推广到训练集中未见过的物体结构复杂度的方法。此外，当与立体重建模型结合使用时，Real2Code还能够从少量多视角RGB图像中重建实际物体，而无需深度或相机信息。

3、Depth Anything V2

简介：本文介绍了Depth Anything V2，旨在揭示构建强大的单目深度估计模型的关键发现，而不是追求华丽的技术。与V1相比，这个版本通过三个关键实践获得了更加精细和稳健的深度预测：1）使用合成图像替代所有标记的真实图像，2）增加我们教师模型的容量，3）通过大规模伪标记真实图像的桥梁教授学生模型。相较于最新的基于稳定扩散的模型，我们的模型更加高效（速度提高了10倍以上）且更准确。我们提供了不同规模的模型，参数范围从25M到1.3B，以适应广泛的场景。鉴于其强大的泛化能力，我们使用度量深度标签对它们进行微调，以获得我们的度量深度模型。除了模型本身，我们还构建了一个多功能的评估基准，包含精确的注释和多样的场景，以促进未来的研究，考虑到当前测试集的有限多样性和频繁噪声。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/33076.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！