3D 生成重建019-LERF用文本在Nerf中开启上帝之眼

3D 生成重建019-LERF用文本在Nerf中开启上帝之眼


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 实验结果

0 论文工作

人类利用自然语言描述物理世界,根据各种特性(视觉外观、语义、抽象关联)寻找具体的3D位置。在这项工作中,作者提出了语言嵌入辐射场(LERF),这是一种将来自现成模型(如CLIP)的语言嵌入整合到NeRF中的方法,从而能够在三维空间中进行这种类型的开放式语言查询。LERF通过沿训练光线进行体渲染CLIP嵌入,从而在NeRF内部学习一个密集的多尺度语言场,并通过在训练视图中监督这些嵌入来提供多视图一致性,并使底层语言场平滑化。优化后,LERF能够实时交互式地提取各种语言提示的3D相关性图,这在机器人技术、理解视觉语言模型和与3D场景交互方面具有潜在的应用案例。LERF支持像素对齐的零样本查询,无需区域建议或掩码,能够分层地处理长尾开放词汇查询。
LanSplat整体上是将这个论文的思想迁移到3DGS上,在这个过程中去解决一些新的问题。clip 当时出了,Sam应该还没发表。基础模型的进步显著促进了应用研究的进步。
paper
github

1 论文方法

因为nerf是像素级别的渲染,所以对齐的时候和边界这些需要做更多的考虑。论文使用多尺度的信息,当然这个和CLIP主要关注相似度有关系。SAM之后语音的定位可以更加准确了。因为nerf采用的是神经网络架构,跟图形渲染管道无关,在这个特征的维度上不需要额外的考虑。通过增加新的分支从CLIP中蒸馏信息就可以。
RF 的主要创新之处在于:
将CLIP语言嵌入融入NeRF: 这是LERF的核心创新。它直接将预训练的CLIP模型的输出嵌入到NeRF中,无需对CLIP进行微调或依赖于特定数据集,扩展了NeRF的应用范围,使其能够理解和响应自然语言。以往方法通常需要依赖于人工标注的数据集或其他的图像特征提取方法。
多尺度语言场: LERF 学习一个多尺度的语言场,这使得它能够处理不同粒度级别的语义信息。例如,它可以同时识别“杯子”和“杯子里的水”,而不需要依赖于人为定义的物体尺度或层次结构。
像素级对齐的零样本查询: LERF实现了像素级对齐的零样本查询,这意味着它能够直接根据自然语言查询在三维场景中定位和分割物体,而无需依赖于目标检测或分割等中间步骤。
高效的实时查询: 经过训练后,LERF能够实时地生成三维场景中物体的相关性图,这对于机器人导航、虚拟现实等实时交互应用具有重要意义。
总的来说,LERF通过将强大的自然语言处理能力与NeRF模型结合,实现了对三维场景的开放词汇查询,在效率和精度方面都取得了显著的提升。其创新之处在于其方法的简洁性和高效性,以及其在处理开放词汇查询方面的出色表现。
请添加图片描述

2 实验结果

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/62243.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何选择合适的期刊投稿?从课题组经验到在线工具的使用全解析

~~~本文是作者个人的经验分享,建立在导师让自己选刊的情况下~~~ 投稿选刊是科研过程中至关重要的一步,选刊过程可能让许多初投稿的研究者感到迷茫和困惑:期刊那么多,如何找到最合适的? 本文将从多个角度介绍如何选择投…

024、Docker与SSH在分布式系统中的实践指南

1. Docker SSH配置最佳实践 Docker容器通常不需要SSH服务来运行,因为它们设计为轻量级、无状态的,并且通常通过Docker命令行界面与宿主机进行交互。但是,在某些情况下,您可能需要通过SSH访问Docker容器进行调试、维护或其他操作。…

【kafka】消息队列的认识,Kafka与RabbitMQ的简单对比

什么是消息队列? 消息队列(Message Queue,简称 MQ)是一个在不同应用程序、系统或服务之间传递数据的机制。 它允许系统间异步地交换信息,而无需直接交互,确保消息的可靠传输。 想象一下,你正在…

.NET MAUI与.NET for Android/IOS的关系

2024年11月13日微软发布了.Net9.0,我打算体验一下。安装好.Net9.0 SDK后发现Visual Studio识别不到9.0,但是通过命令行dotnet --info查看是正常的,后面看到了VS有版本可以升级,把VS升级到17.12.0就可以了。更新完打开以后看到如下界面 这里…

SqlDataAdapter

SqlDataAdapter 是 .NET Framework 和 .NET Core 中提供的一个数据适配器类,属于 System.Data.SqlClient 命名空间(或在 .NET 6 中属于 Microsoft.Data.SqlClient 命名空间)。它的作用是充当数据源(如 SQL Server 数据库&#xff…

【vivado】时序报告--best时序和worst时序

利用vivado进行开发时,生成best时序报告和worst时序报告。 best时序报告 slow选择min_max,fast选择none。 worst时序报告 fast选择min_max,slow选择none。

FastAPI 响应状态码:管理和自定义 HTTP Status Code

FastAPI 响应状态码:管理和自定义 HTTP Status Code 本文介绍了如何在 FastAPI 中声明、使用和修改 HTTP 状态码,涵盖了常见的 HTTP 状态码分类,如信息响应(1xx)、成功状态(2xx)、客户端错误&a…

力扣题库-掷骰子模拟详细解析

题目如下: 有一个骰子模拟器会每次投掷的时候生成一个 1 到 6 的随机数。 不过我们在使用它时有个约束,就是使得投掷骰子时,连续 掷出数字 i 的次数不能超过 rollMax[i](i 从 1 开始编号)。 现在,给你一…

深入浅出:PHP中的数据类型全解析

文章目录 引言理解数据类型标量类型整数 (integer)浮点数 (float)布尔值 (boolean)字符串 (string) 复合类型数组 (array)对象 (object)资源 (resource)NULL 特殊类型Callable强制类型转换 实战案例总结与展望参考资料 引言 在编程的世界里,数据类型是构建任何应用…

当linux可执行文件缺少或者不兼容so库时候,如何查看版本以及缺少那些库

解决方法: ldd 命令来验证程序是否加载了正确的库: 如检查linear_elasticity可执行文件缺少的库,用下面命令: ldd linear_elasticity 可以发现下面not found就是缺少的库,还有对应的库的位置已经版本 $ ldd lin…

第P1周:Pytorch实现mnist手写数字识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 目标 1. 实现pytorch环境配置 2. 实现mnist手写数字识别 3. 自己写几个数字识别试试具体实现 (一)环境 语言环境:Python…

Seq2Seq模型的发展历史;深层RNN结构为什么出现梯度消失/爆炸问题,Transformer为什么不会;Seq2Seq模型存在问题

目录 Seq2Seq模型的发展历史 改进不足的地方 深层RNN结构为什么出现梯度消失/爆炸问题,Transformer为什么不会 深层RNN结构为什么出现梯度消失/爆炸问题: Transformer为什么不会出现梯度消失/爆炸问题: Seq2Seq模型存在问题 T5模型介绍 Seq2Seq模型的发展历史 序列到…

网络安全技术详解:虚拟专用网络(VPN) 安全信息与事件管理(SIEM)

虚拟专用网络(VPN)详细介绍 虚拟专用网络(VPN)通过在公共网络上创建加密连接来保护数据传输的安全性和隐私性。 工作原理 VPN的工作原理涉及建立安全隧道和数据加密: 隧道协议:使用协议如PPTP、L2TP/IP…

Hive 窗口函数与分析函数深度解析:开启大数据分析的新维度

Hive 窗口函数与分析函数深度解析:开启大数据分析的新维度 在当今大数据蓬勃发展的时代,Hive 作为一款强大的数据仓库工具,其窗口函数和分析函数犹如一把把精巧的手术刀,助力数据分析师们精准地剖析海量数据,挖掘出深…

SCAU期末笔记 - 数据库系统概念

我校使用Database System Concepts,9-12章不考所以跳过,因为课都逃了所以复习很仓促,只准备过一下每一章最后的概念辨析,我也不知道有没有用 第1章 引言 数据库管理系统(DBMS) 由一个互相关联的数据的集合…

Android 12系统源码_窗口管理(九)深浅主题切换流程源码分析

前言 上一篇我们简单介绍了应用的窗口属性WindowConfiguration这个类,该类存储了当前窗口的显示区域、屏幕的旋转方向、窗口模式等参数,当设备屏幕发生旋转的时候就是通过该类将具体的旋转数据传递给应用的、而应用在加载资源文件的时候也会结合该类的A…

河南省的教育部科技查新工作站有哪些?

郑州大学图书馆(Z12):2007年1月被批准设立“教育部综合类科技查新工作站”,同年12月被河南省科技厅认定为河南省省级科技查新机构。主要面向河南省的高校、科研机构、企业提供科技查新、查收查引等服务。 河南大学图书馆&#xf…

Leetcode经典题6--买卖股票的最佳时机

买卖股票的最佳时机 题目描述: 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。…

MCPTT 与BTC

MCPTT(Mission Critical Push-to-Talk)和B-TrunC(宽带集群)是两种关键通信标准,它们分别由不同的组织制定和推广。 MCPTT(Mission Critical Push-to-Talk)标准由3GPP(第三代合作伙伴…

去除账号密码自动赋值时的输入框背景色

问题描述: 前端使用账号密码登录,若在网页保存过当前页面的密码和账号,那么当再次进入该页面,网页会自动的把账号和密码赋到输入框中,而此时输入框是带有背景色的,与周边的白色背景显得很不协调&#xff1…