字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。

bicheng/2025/10/18 14:56:15/文章来源:https://blog.csdn.net/xs1997/article/details/140000095

欢迎点击关注下方公众号并加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高（快了10倍以上）且更准确。提供了不同规模的模型（参数从25M到1.3B不等），以支持各种应用场景。分别针对室内和室外场景发布了三个尺度的六种度量深度模型。

通过三个关键实践产生了更精细和更鲁棒的深度预测：

用合成图像取代所有标注的真实图像，
扩大教师模型的容量，
通过大规模伪标注的真实图像作为桥梁来教授学生模型。

Depth Anything V2基于595K张合成标记图像和62M+张真实未标记图像进行训练，提供最强大的单目深度估计(MDE)模型。

相关链接

论文地址：https://arxiv.org/abs/2406.09414

代码地址：https://github.com/DepthAnything/Depth-Anything-V2

试用链接：https://huggingface.co/spaces/Depth-Anything/Depth-Anything-V2

论文阅读

摘要

这项工作提出了 Depth Anything V2。我们不追求花哨的技术，而是旨在揭示关键发现，为构建强大的单目深度估计模型铺平道路。值得注意的是，与 V1 相比，此版本通过三个关键实践产生了更精细、更稳健的深度预测：

用合成图像替换所有标记的真实图像；
扩大我们的教师模型的容量
通过大规模伪标记真实图像的桥梁教授学生模型。

与基于稳定扩散构建的最新模型相比，我们的模型效率更高（速度快 10 倍以上）且更准确。我们提供不同规模的模型（从 25M 到 1.3B 参数不等）以支持广泛的场景。得益于它们强大的泛化能力，我们使用度量深度标签对它们进行微调以获得我们的度量深度模型。除了我们的模型之外，考虑到当前测试集中的多样性有限和频繁的噪声，我们构建了一个具有稀疏深度注释的通用评估基准，以方便未来的研究。

方法

我们首先在纯合成图像上训练一个初始的最大教师模型（基于 DINOv2-Giant）。然后，它为大规模未标记的真实图像生成高质量的伪标签。最后，仅在伪标记的真实图像上训练学生模型。

效果展示

与Depth Anything V1在细粒度细节上的比较

与 Depth Anything V1 的稳健性比较

与 Marigold 和 Geowizard 的比较

视频深度可视化

注意： Depth Anything V2是一种基于图像的深度估计方法，我们使用视频只是为了更好地展示我们的优势。

数据覆盖范围

我们使用595K张合成图像来训练初始最大的教师模型，并使用62M+张真实伪标记图像来训练最终的学生模型。

结论

在这项工作中，我们提出了 Depth Anything V2，这是一种更强大的单目深度估计基础模型。它能够

提供稳健且细粒度的深度预测；
支持具有各种模型大小（从 25M 到 1.3B 参数）的广泛应用
作为一种有前途的模型初始化，可以轻松微调到下游任务。

我们揭示了关键的发现，为构建强大的 MDE 模型铺平了道路。此外，考虑到现有测试集中的多样性较差和噪声丰富，我们构建了一个多功能评估基准 DA-2K，涵盖了具有精确且具有挑战性的稀疏深度标签的各种高分辨率图像。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/35697.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

idea使用maven打包报错GBK不可映射字符

idea使用maven打包报错GBK不可映射字符

方法一：设置环境变量打开“控制面板” > “系统和安全” > “系统”。点击“高级系统设置”。在“系统属性”窗口中，点击“环境变量”。在“系统变量”部分，点击“新建”，创建一个新的变量： 变量名：…

阅读更多...

4.任务调度

4.任务调度

1.基本知识 2.任务的状态 FreeRTOS中任务共存在4种状态：Running 运行态当任务处于实际运行状态称之为运行态，即CPU的使用权被这个任务占用（同一时间仅一个任务处于运行态）。Ready 就绪态处于就绪态的任务是指那些能够运行&…

阅读更多...

单片机学习记录

单片机学习记录

一，单片机及开发板介绍 1，基本介绍单片机，英文Micro Controller Unit，简称MCU内部集成了CPU、RAM、ROM、定时器、中断系统、通讯接口等一系列电脑的常用硬件功能单片机的任务是信息采集(依靠传感器)、处理(依靠CPU)和硬件设备(…

阅读更多...

MySQL——子查询和嵌套查询

MySQL——子查询和嵌套查询

where （计算出的值） 本质：在where语句中嵌套一个子查询语句代码演示： -- 1. 查询数据库结构-1 的所有考试结果（学号，科目名称，成绩），降序排列-- 方式一：使…

阅读更多...

前后端中的cookie和session

前后端中的cookie和session

实际上，在大多数Web应用中，这个过程通常是自动处理的，不需要手动操作。以下是标准流程： 登录时：当用户成功登录后，服务器会创建一个新的Session（如果之前还没有的话），并生…

阅读更多...

CF训练1

CF训练1

1985E 看完题目之后 ， 第一想法是最暴力的On3 ， 对于每个i ，j ，k ， 如果它们符合k的体积的话，我们就可以把这个长方体一格一格的移动 ， 对于x方向 ， 我们一共能移动a - i次 &#x…

阅读更多...

1.x86游戏实战-认识CE

1.x86游戏实战-认识CE

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全链接：https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提取码：6tw3 复…

阅读更多...

Day5:有效的字母异位词 242 两个数组的交集 349 快乐数 202 两数之和1

Day5:有效的字母异位词 242 两个数组的交集 349 快乐数 202 两数之和1

题目242. 有效的字母异位词 - 力扣（LeetCode） class Solution { public:bool isAnagram(string s, string t) {//把数组当成哈希表，用两个数组来存储取模后的字母对应的数量//26个字母， 模25 0~25int arrs[26];int arrt[26];for(…

阅读更多...

Python数据分析第一课：Anaconda的安装使用

Python数据分析第一课：Anaconda的安装使用

Python数据分析第一课：Anaconda的安装使用 1.Anaconda是什么？ Anaconda是一个便捷的获取包，并且对包和环境进行管理的虚拟环境工具,Anaconda包括了conda、Python在内的超过180多个包和依赖项简单来说，Anaconda是包管理器和环境…

阅读更多...

前端实战：实现块级元素的拖拽与缩放功能

前端实战：实现块级元素的拖拽与缩放功能

在现代网页开发中，用户交互是一个非常重要的部分。在这篇文章中，我们将详细介绍如何使用原生 JavaScript 实现块级元素的拖拽与缩放功能。具体来说，我们将实现以下功能： 点击并拖动 outer 元素，可以移动整个块。点击并…

阅读更多...

React学习路线

React学习路线

React基础 React 是一个用于构建用户界面的 JavaScript 库。它起源于 Facebook 的内部项目，现在已经成为前端社区中最受欢迎和广泛使用的库之一。以下是 React 的基础知识和核心概念： 1. JSX JSX 是 JavaScript XML 的缩写，是一种在 React…

阅读更多...

C语言学习记录20240626

C语言学习记录20240626

飞船无论朝哪边行驶，都能通过结构体记录获取它的初始坐标、转向角度和在该方向行进的距离，需要根据这些信息计算飞船移动后的坐标。向量(vector)指具有大小(magnitude)和方向(direction)的量，可以理解为有方向的线段。标量或纯量(scalar)指…

阅读更多...

【嵌入式 RT-Thread】一种优雅的使用 [互斥锁] 和 [信号量] 解决数据多路并发思路

【嵌入式 RT-Thread】一种优雅的使用 [互斥锁] 和 [信号量] 解决数据多路并发思路

rt-thread 中的信号量和互斥锁在工业开发项目中的应用，本博文主要介绍了一种优雅的使用 [互斥锁] 和 [信号量] 解决数据多路并发思路 2024-06 by 积跬步、至千里目录 0. 个人简介 && 授权须知1. 工业场景描述1.1 工业数据采集需求1.2 总线协议与数据采集 2…

阅读更多...

汇聚荣做拼多多运营，是新手怎么做？

汇聚荣做拼多多运营，是新手怎么做？

作为电商领域的一颗新星，拼多多以其独特的商业模式迅速崛起，吸引了众多商家和消费者的目光。对于新手来说，如何在拼多多平台上开展运营活动，成为了许多初入电商领域的人们关心的问题。本文将围绕如何做好拼多多运营这一核心内容&a…

阅读更多...

DataGrip 2024 po for Mac 数据库管理工具解

DataGrip 2024 po for Mac 数据库管理工具解

Mac分享吧文章目录效果一、下载软件二、开始安装1、双击运行软件（适合自己的M芯片版或Intel芯片版），将其从左侧拖入右侧文件夹中，等待安装完毕2、应用程序显示软件图标，表示安装成功3、打开访达，点击【文…

阅读更多...

基于Springboot+Vue的校友社交系统(带1w+文档)

基于Springboot+Vue的校友社交系统(带1w+文档)

基于SpringbootVue的校友社交系统(带1w文档) 校友社交系统作为一种典型的管理系统也迅速的发展并深入人们的日常生活中，它使用户足不出户就可以管理自己的校友社交信息等，最大化减缩了用户的管理时间，提高了管理效率。项目简介基于SSMVUE的…

阅读更多...

【小学期】操纵数据的DAO设计——以学生管理系统为例

【小学期】操纵数据的DAO设计——以学生管理系统为例

项目结构 student_management │ ├── src │ ├── model │ │ ├── Student.java │ │ └── StudentDAO.java │ │ │ ├── view │ │ └── StudentView.java │ │ │ ├── controller │ │ └── StudentController.java │…

阅读更多...

基于百度地图实现矩形绘制/电子围栏/自定义覆盖物选择、点击、区域选中、轨迹绘制

基于百度地图实现矩形绘制/电子围栏/自定义覆盖物选择、点击、区域选中、轨迹绘制

目录开发前的准备账号注册页面创建地图初始化矩形绘制开启绘制模式监听绘制完成事件矩形取消事件自定义覆盖物渲染数据准备覆盖物渲染自定义点击事件优化用户刷新提供的覆盖物添加右键菜单轨迹绘制开发前的准备账号注册百度地图开发者平台点此访问登录注册后点击右上角的控…

阅读更多...

keepalived 服务高可用（简约版）

keepalived 服务高可用（简约版）

本文基于centos 7记述如何使用keepalived 背景为生产环境准备一台备机是极其必要的，防止主机宕掉无服务可用的情况出现。但是同一局域网内每台主机都分配了一个唯一IP，这些IP既然相互不同，那么服务请求的时候岂不是要切换IP地址&#xff1f…

阅读更多...

任务5.1 初识Spark Streaming

任务5.1 初识Spark Streaming

实战概述：使用Spark Streaming进行词频统计 1. 项目背景与目标背景: Spark Streaming是Apache Spark的流处理框架，用于构建可伸缩、高吞吐量的实时数据处理应用。目标: 实现一个实时词频统计系统，能够处理流式数据并统计文本中的单词出现频…

阅读更多...

最新文章