HaLo-NeRF:利用视觉和语言模型对场景的精准定位和细粒度语义理解

包含大量摄影师拍摄的照片的互联网图像集有望实现对大型旅游地标的数字探索。然而,先前的工作主要集中在几何重建和可视化上,忽略了语言在为导航和细粒度理解提供语义界面方面的关键作用。

项目:HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

更多消息:
AI人工智能行业动态,aigc应用领域资讯

在受限的 3D 领域中,最近的方法利用视觉和语言模型作为 2D 视觉语义的强大先验。虽然这些模型表现出对广泛视觉语义的出色理解,但由于缺乏建筑领域的专业知识,它们难以处理描绘此类旅游地标的不受约束的照片集。在这项工作中,他们提出了一个定位系统,通过利用 SOTA 视觉和语言模型的力量以及理解地标场景语义的适应性,将描绘大规模地标的场景的神经表示与描述场景内语义区域的文本连接起来。为了用细粒度的知识支持此类模型,他们利用包含相似地标图像以及弱相关文本信息的大规模互联网数据。

他们的方法建立在这样的前提之上:物理上基于空间的图像可以为本地化新概念提供强大的监督信号,其语义可以通过大型语言模型从互联网文本元数据中解锁。他们使用场景视图之间的对应关系来引导对这些语义的空间理解,为最终提升为体积场景表示的 3D 兼容分割提供指导。 他们的结果表明,HaLo-NeRF 可以准确定位与建筑地标相关的各种语义概念,超越了其他 3D 模型以及强大的 2D 分割基线的结果。

实现方法

他们的目标是对互联网照片集捕获的地标场景执行文本驱动的神经 3D 定位。换句话说,给定这组图像和描述场景中语义概念的文本提示,他们想知道HaLo-NeRF在 3D 空间中的位置。这些图像是在野外拍摄的,这意味着它们可能是在不同季节、一天中的时间、视角和距地标的距离拍摄的,并且可能包括短暂的遮挡。

HaLo-NeRF为了在 3D 空间中定位独特的建筑特征地标,他们利用强大的现代基础模型进行视觉和文本理解。尽管在一般多模态理解方面取得了进展,但现代 VLM 仍难以在建筑地标上定位细粒度的语义概念,正如他们在结果中广泛展示的那样。建筑领域使用专门的词汇,术语在一般用法中很少见。

为了解决这些挑战,他们设计了一个三阶段系统:(a)他们使用大型语言模型(LLM)从嘈杂的互联网图像元数据中提取语义伪标签。 (b) 他们使用这些伪标签和场景视图之间的对应关系来学习图像级和像素级语义。特别是,他们使用多视图监督微调图像分割模型(CLIPSegFT),其中放大视图及其相关的伪标签(例如与术语“鼓室”相关的左侧图像)提供监督信号用于缩小视图。 (c) 然后,他们提升这种语义理解,以学习新的、看不见的地标(例如右侧描绘的圣保罗大教堂)的体积概率,从而允许使用受控的视点和照明设置渲染分段场景的视图。

此外,他们还显示了下面的可视化效果,将 HaLo-NeRF(左)与 Baseline 模型(右)进行比较,后者使用 CLIPSeg 模型而不进行微调。两个视频都显示了相同的 RGB 渲染时间序列,仅在所描述的概率上有所不同(取自他们的模型或基线)。请注意,一旦放大,他们就会关闭两个模型的概率,以便更好地查看目标语义区域。每个视频上方都写有目标文本提示,右侧是地标名称。如下图所示,他们的模型产生了明显更清晰的概率,可以更好地定位语义区域,特别是对于建筑地标领域之外不太常见的独特概念。他们还以多种外观可视化放大区域(对于他们的模型,保持基线模型的外观固定)。主论文中说明了来自 HolyScenes 基准的其他提示和地标的结果。

这项技术有几个重要的用途:

  1. 导航和定位:通过这项技术,用户可以更精确地找到地标场景中的特定区域或对象。这对于旅游导航、城市规划或者虚拟现实(VR)体验中的定位都非常重要。
  2. 增强现实(AR)和虚拟现实(VR)应用:通过提供详细的3D定位和语义信息,这项技术可以为AR和VR应用提供更加丰富和真实的场景渲染。用户可以在虚拟环境中更自然地与地标进行交互,获得更加沉浸式的体验。
  3. 文化遗产保护和展示:对于历史建筑和文化遗产,这项技术可以用于创建数字模型,进行保护和展示。通过精确的定位和语义理解,可以还原建筑的原始风貌,为学者和游客提供更加深入的了解和体验。
  4. 智能图像检索:用户可以通过输入文本描述来检索与特定地标相关的图像,或者找到图像中特定语义区域的详细信息。
  5. 自动化地标识别:这项技术可以应用于自动驾驶车辆、无人机或其他机器人设备,帮助它们更好地识别和理解地标场景,从而实现更精准的导航和任务执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/5059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode - 129双周赛

目录 一,3127. 构造相同颜色的正方形 二,3128. 直角三角形 三,3129. 找出所有稳定的二进制数组 I ​编辑 四,3130. 找出所有稳定的二进制数组 II 一,3127. 构造相同颜色的正方形 本题就是问在一个3x3的正方形中是…

2024.4.25 LoadRunner 测试工具详解 —— Controller Analysis

目录 Controller 的使用 创建场景 Controller 快捷方式创建场景 VUG 针对写好脚本创建场景 场景设计 设计初始化 设计启动机制 设计性能测试脚本的执行时间 设计虚拟用户退出机制 场景运行 添加监控指标至图标格区域 Analysis 的使用 汇总报告 测试报表 吞吐量图 …

仿9377登录注册页面源码分享

LOGO在image里面修改,名字这些有记事本打开修改 仿9377登录注册页面源码分享

《HelloGitHub》第 97 期

兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…

【Spark】读取本地文件

最近有一个需求,spark任务读取本地csv文件,拼接成rk之后再去hbase取值进行后续处理。搞了好久都没能解决,记录一下解决思路如下: 1、写入临时文件 spark可以读取本地文件,但打成jar包之后不会自动读取jar包中的文件&…

《Python语言科研绘图与学术图表绘制从入门到精通》解锁Python语言绘图魅力,让数据可视化成为你的科研利器!

本书特点 1.零基础高效入门:通过软件操作、实战案例及图文、代码结合的方式,实现从入门到精通的快速学习。 2.掌握多元科研绘图:涵盖科研绘图基础、各类图形绘制技巧,包括变量、极坐标、2D、3D及地理信息可视化等。 3.实用与艺术…

学习 Rust 第 22 天:mini_grep 第 2 部分

书接上文,在本文中,我们学习了如何通过将 Rust 程序的逻辑移至单独的库箱中并采用测试驱动开发 (TDD) 实践来重构 Rust 程序。通过在实现功能之前编写测试,我们确保了代码的可靠性。我们涵盖了基本的 Rust 概念,例如错误处理、环境…

Coursera: An Introduction to American Law 学习笔记 Week 06: Civil Procedure (完结)

An Introduction to American Law Course Certificate Course Introduction 本文是 https://www.coursera.org/programs/career-training-for-nevadans-k7yhc/learn/american-law 这门课的学习笔记。 文章目录 An Introduction to American LawInstructors Week 06: Civil Pro…

安卓手机APP开发__媒体开发部分__高动态范围的视频播放

安卓手机APP开发__媒体开发部分__高动态范围的视频播放 目录 高动态范围的概述 设备的前提条件 检查高动态范围的播放的支持 在你的APP中设置高动态范围的播放 使用SurfaceView来设置MediaCodec 高动态范围的概述 高动态范围提供了一个宽的范围的颜色和最亮的白色与最暗…

Python使用设计模式中的建筑模式将数据写入Excel且满足条件内容标红

对于这个任务,适合使用"Builder"设计模式。Builder模式的主要目的是将对象的构建与其表示分离,以便相同的构建过程可以创建不同的表示。在这个情况下,我们需要一个构建器来逐行构建Excel表格,并根据给定的数据添加相应的…

【HTML】

1.html 语义化 提高可读性:对于开发者来说,语义化的HTML代码更容易阅读和理解。因为每个标签都有其特定的含义和用途,所以看到标签就能大致了解该部分内容的结构和作用。有利于搜索引擎优化(SEO):对于搜索…

GoF之工厂模式

GoF之工厂模式 文章目录 GoF之工厂模式每博一文案1. 简单说明“23种设计模式”1.2 介绍工厂模式的三种形态1.3 简单工厂模式(静态工厂模式)1.3.1 简单工厂模式的优缺点: 1.4 工厂方法模式1.4.1 工厂方法模式的优缺点: 1.5 抽象工厂模式1.6 抽象工厂模式的…

Apache Seata基于改良版雪花算法的分布式UUID生成器分析2

title: 关于新版雪花算法的答疑 author: selfishlover keywords: [Seata, snowflake, UUID, page split] date: 2021/06/21 本文来自 Apache Seata官方文档,欢迎访问官网,查看更多深度文章。 关于新版雪花算法的答疑 在上一篇关于新版雪花算法的解析中…

C++初阶学习第四弹——类与对象(中)——刨析类与对象的核心点

类与对象(上):C初阶学习第三弹——类与对象(上)——初始类与对象-CSDN博客 前言: 在前面文章中,我们已经讲了类与对象的思想和类与对象的一些基本操作,接下来这篇文章我们将讲解以下…

探索Jellyfin:支持Android的自由开源的媒体服务器平台

探索Jellyfin:支持Android的自由开源的媒体服务器平台 I. 简介 A. 什么是Jellyfin? Jellyfin是一个自由开源的媒体服务器平台,旨在让用户能够自主管理和流式传输他们的媒体内容。与许多闭源的商业媒体服务器解决方案不同,Jelly…

Matlab各个版本介绍、区别分析及推荐

MATLAB,由美国MathWorks公司出品,是一款广泛应用的商业数学软件。自其诞生之初,MATLAB便以其强大的矩阵计算能力、灵活的编程环境以及广泛的应用领域,赢得了全球科研工作者和工程师的青睐。本文将详细介绍MATLAB的各个版本&#x…

ubuntu neo4j 下载与配置(一)

neo4j 官方下载页面 https://neo4j.com/deployment-center/#community 进入页面之后,往下滑 咱们在下载neo4j时,官方可能要咱们填写一下个人信息,比如:姓名组织结构邮箱等: 咱们可以观察一下,ne4j的下载链…

uniapp0基础编写安卓原生插件和调用第三方jar包和编写语音播报插件之编写语音播放安卓插件

前言 如果你不会编写安卓插件,你可以先看看我之前零基础的文章(uniapp0基础编写安卓原生插件和调用第三方jar包和编写语音播报插件之零基础编写安卓插件), 我们使用android.speech.tts.TextToSpeech进行编写语言播放插件 开始 uniapp <template><view style=&q…

烟雾识别图像处理方法详解---豌豆云

本文详细介绍了烟雾识别图像处理方法的原理、流程和应用场景&#xff0c;帮助读者理解并掌握这一技术&#xff0c;为实际应用提供指导。 随着科技的不断发展&#xff0c;图像处理技术在各个领域得到了广泛应用。 其中&#xff0c;烟雾识别图像处理方法作为一种重要的技术手段…

如何下载钉钉群直播回放:完整步骤解析

在当今快节奏的商业和教育环境中&#xff0c;钉钉群直播已经成为了沟通和学习的重要工具。直播结束后&#xff0c;很多观众都希望回顾内容&#xff0c;但却不知如何开始。如果你错过了实时直播&#xff0c;或者只是想再次观看精彩的演讲和讨论&#xff0c;那么下载钉钉群直播回…