3D 生成重建019-LERF用文本在Nerf中开启上帝之眼

3D 生成重建019-LERF用文本在Nerf中开启上帝之眼


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 实验结果

0 论文工作

人类利用自然语言描述物理世界,根据各种特性(视觉外观、语义、抽象关联)寻找具体的3D位置。在这项工作中,作者提出了语言嵌入辐射场(LERF),这是一种将来自现成模型(如CLIP)的语言嵌入整合到NeRF中的方法,从而能够在三维空间中进行这种类型的开放式语言查询。LERF通过沿训练光线进行体渲染CLIP嵌入,从而在NeRF内部学习一个密集的多尺度语言场,并通过在训练视图中监督这些嵌入来提供多视图一致性,并使底层语言场平滑化。优化后,LERF能够实时交互式地提取各种语言提示的3D相关性图,这在机器人技术、理解视觉语言模型和与3D场景交互方面具有潜在的应用案例。LERF支持像素对齐的零样本查询,无需区域建议或掩码,能够分层地处理长尾开放词汇查询。
LanSplat整体上是将这个论文的思想迁移到3DGS上,在这个过程中去解决一些新的问题。clip 当时出了,Sam应该还没发表。基础模型的进步显著促进了应用研究的进步。
paper
github

1 论文方法

因为nerf是像素级别的渲染,所以对齐的时候和边界这些需要做更多的考虑。论文使用多尺度的信息,当然这个和CLIP主要关注相似度有关系。SAM之后语音的定位可以更加准确了。因为nerf采用的是神经网络架构,跟图形渲染管道无关,在这个特征的维度上不需要额外的考虑。通过增加新的分支从CLIP中蒸馏信息就可以。
RF 的主要创新之处在于:
将CLIP语言嵌入融入NeRF: 这是LERF的核心创新。它直接将预训练的CLIP模型的输出嵌入到NeRF中,无需对CLIP进行微调或依赖于特定数据集,扩展了NeRF的应用范围,使其能够理解和响应自然语言。以往方法通常需要依赖于人工标注的数据集或其他的图像特征提取方法。
多尺度语言场: LERF 学习一个多尺度的语言场,这使得它能够处理不同粒度级别的语义信息。例如,它可以同时识别“杯子”和“杯子里的水”,而不需要依赖于人为定义的物体尺度或层次结构。
像素级对齐的零样本查询: LERF实现了像素级对齐的零样本查询,这意味着它能够直接根据自然语言查询在三维场景中定位和分割物体,而无需依赖于目标检测或分割等中间步骤。
高效的实时查询: 经过训练后,LERF能够实时地生成三维场景中物体的相关性图,这对于机器人导航、虚拟现实等实时交互应用具有重要意义。
总的来说,LERF通过将强大的自然语言处理能力与NeRF模型结合,实现了对三维场景的开放词汇查询,在效率和精度方面都取得了显著的提升。其创新之处在于其方法的简洁性和高效性,以及其在处理开放词汇查询方面的出色表现。
请添加图片描述

2 实验结果

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/62243.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何选择合适的期刊投稿?从课题组经验到在线工具的使用全解析

~~~本文是作者个人的经验分享,建立在导师让自己选刊的情况下~~~ 投稿选刊是科研过程中至关重要的一步,选刊过程可能让许多初投稿的研究者感到迷茫和困惑:期刊那么多,如何找到最合适的? 本文将从多个角度介绍如何选择投…

.NET MAUI与.NET for Android/IOS的关系

2024年11月13日微软发布了.Net9.0,我打算体验一下。安装好.Net9.0 SDK后发现Visual Studio识别不到9.0,但是通过命令行dotnet --info查看是正常的,后面看到了VS有版本可以升级,把VS升级到17.12.0就可以了。更新完打开以后看到如下界面 这里…

【vivado】时序报告--best时序和worst时序

利用vivado进行开发时,生成best时序报告和worst时序报告。 best时序报告 slow选择min_max,fast选择none。 worst时序报告 fast选择min_max,slow选择none。

FastAPI 响应状态码:管理和自定义 HTTP Status Code

FastAPI 响应状态码:管理和自定义 HTTP Status Code 本文介绍了如何在 FastAPI 中声明、使用和修改 HTTP 状态码,涵盖了常见的 HTTP 状态码分类,如信息响应(1xx)、成功状态(2xx)、客户端错误&a…

第P1周:Pytorch实现mnist手写数字识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 目标 1. 实现pytorch环境配置 2. 实现mnist手写数字识别 3. 自己写几个数字识别试试具体实现 (一)环境 语言环境:Python…

网络安全技术详解:虚拟专用网络(VPN) 安全信息与事件管理(SIEM)

虚拟专用网络(VPN)详细介绍 虚拟专用网络(VPN)通过在公共网络上创建加密连接来保护数据传输的安全性和隐私性。 工作原理 VPN的工作原理涉及建立安全隧道和数据加密: 隧道协议:使用协议如PPTP、L2TP/IP…

河南省的教育部科技查新工作站有哪些?

郑州大学图书馆(Z12):2007年1月被批准设立“教育部综合类科技查新工作站”,同年12月被河南省科技厅认定为河南省省级科技查新机构。主要面向河南省的高校、科研机构、企业提供科技查新、查收查引等服务。 河南大学图书馆&#xf…

Leetcode经典题6--买卖股票的最佳时机

买卖股票的最佳时机 题目描述: 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。…

【Pytorch】torch.reshape与torch.Tensor.reshape区别

问题引入: 在Pytorch文档中,有torch.reshape与torch.Tensor.reshape两个reshape操作,他们的区别是什么呢? 我们先来看一下官方文档的定义: torch.reshape: torch.Tensor.reshape: 解释: 在p…

spring6:3容器:IoC

spring6:3容器:IoC 目录 spring6:3容器:IoC3、容器:IoC3.1、IoC容器3.1.1、控制反转(IoC)3.1.2、依赖注入3.1.3、IoC容器在Spring的实现 3.2、基于XML管理Bean3.2.1、搭建子模块spring6-ioc-xml…

【认证法规】安全隔离变压器

文章目录 定义反激电源变压器 定义 安全隔离变压器(safety isolating transformer),通过至少相当于双重绝缘或加强绝缘的绝缘使输入绕组与输出绕组在电气上分开的变压器。这种变压器是为以安全特低电压向配电电路、电器或其它设备供电而设计…

车机端同步outlook日历

最近在开发一个车机上的日历助手,其中一个需求就是要实现手机端日历和车机端日历数据的同步。然而这种需求似乎没办法实现,毕竟手机日历是手机厂商自己带的系统应用,根本不能和车机端实现数据同步的。 那么只能去其他公共的平台寻求一些机会&…

OpenCV-图像阈值

简单阈值法 此方法是直截了当的。如果像素值大于阈值,则会被赋为一个值(可能为白色),否则会赋为另一个值(可能为黑色)。使用的函数是 cv.threshold。第一个参数是源图像,它应该是灰度图像。第二…

城电科技 | 光伏景观长廊 打造美丽乡村绿色低碳示范区 光伏景观设计方案

光伏景观长廊是一种结合了光伏发电技术和零碳景观设计的新型公共公共设施,光伏景观长廊顶上的光伏板不仅可以为周边用电设备提供清洁电能,而且还能作为遮阳设施使用,为人们提供一个美丽又实用的休闲娱乐空间。 光伏景观长廊建设对打造美丽乡…

开发系统准备与开发环境配置总结

开发前系统配置及环境搭建 系统配置0 Github打不开、速度慢怎么办1 WSL、Linux、Ubuntu、Docker都是什么鬼2 在Windows下安装WSL和Ubuntu3 配置MySQL4 配置Redis并启动服务5 Docker(Windows和Ubuntu下)6 Nginx 系统配置 你好! 这是你第一次使…

uniapp 添加loading

在uniapp中添加loading可以使用uni的API uni.showLoading 方法。以下是一个简单的示例代码 // 显示loading uni.showLoading({title: 加载中 });// 假设这里是异步操作,比如网络请求 setTimeout(function () {// 隐藏loadinguni.hideLoading(); }, 2000);

C++(九)

前言: 本文主要讲述运算符的优先顺序。 一,运算符的优先级。 请看以下表达式: a32*5 运算结果为:13. 可以看到,在此代码中,先运行了2*5的结果,在此基础上在进行3操作,因此结果…

【Altium Designer 】AD如何使用嘉立创元器件的3D封装

1.下载3D封装 以STM32F407VGT6为例,进入嘉立创商城网站,找到需要的元器件封装 复制编号,打开嘉立创EDA,编译器选择专业版,新建工程,点击PCB1 复制编号在搜索框中,点击搜索,然后放置…

爬虫运行后数据如何存储?

爬虫运行后获取的数据可以存储在多种不同的存储系统中,具体选择取决于数据的规模、查询需求以及应用场景。以下是一些常见的数据存储方法: 1. 文件系统 对于小型项目或临时数据存储,可以直接将数据保存到本地文件中。常见的文件格式包括&…

【机器学习】机器学习的基本分类-监督学习-梯度提升树(Gradient Boosting Decision Tree, GBDT)

梯度提升树是一种基于**梯度提升(Gradient Boosting)**框架的机器学习算法,通过构建多个决策树并利用每棵树拟合前一棵树的残差来逐步优化模型。 1. 核心思想 Boosting:通过逐步调整模型,使后续的模型重点学习前一阶段…