HaLo-NeRF:利用视觉和语言模型对场景的精准定位和细粒度语义理解

包含大量摄影师拍摄的照片的互联网图像集有望实现对大型旅游地标的数字探索。然而,先前的工作主要集中在几何重建和可视化上,忽略了语言在为导航和细粒度理解提供语义界面方面的关键作用。

项目:HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

更多消息:
AI人工智能行业动态,aigc应用领域资讯

在受限的 3D 领域中,最近的方法利用视觉和语言模型作为 2D 视觉语义的强大先验。虽然这些模型表现出对广泛视觉语义的出色理解,但由于缺乏建筑领域的专业知识,它们难以处理描绘此类旅游地标的不受约束的照片集。在这项工作中,他们提出了一个定位系统,通过利用 SOTA 视觉和语言模型的力量以及理解地标场景语义的适应性,将描绘大规模地标的场景的神经表示与描述场景内语义区域的文本连接起来。为了用细粒度的知识支持此类模型,他们利用包含相似地标图像以及弱相关文本信息的大规模互联网数据。

他们的方法建立在这样的前提之上:物理上基于空间的图像可以为本地化新概念提供强大的监督信号,其语义可以通过大型语言模型从互联网文本元数据中解锁。他们使用场景视图之间的对应关系来引导对这些语义的空间理解,为最终提升为体积场景表示的 3D 兼容分割提供指导。 他们的结果表明,HaLo-NeRF 可以准确定位与建筑地标相关的各种语义概念,超越了其他 3D 模型以及强大的 2D 分割基线的结果。

实现方法

他们的目标是对互联网照片集捕获的地标场景执行文本驱动的神经 3D 定位。换句话说,给定这组图像和描述场景中语义概念的文本提示,他们想知道HaLo-NeRF在 3D 空间中的位置。这些图像是在野外拍摄的,这意味着它们可能是在不同季节、一天中的时间、视角和距地标的距离拍摄的,并且可能包括短暂的遮挡。

HaLo-NeRF为了在 3D 空间中定位独特的建筑特征地标,他们利用强大的现代基础模型进行视觉和文本理解。尽管在一般多模态理解方面取得了进展,但现代 VLM 仍难以在建筑地标上定位细粒度的语义概念,正如他们在结果中广泛展示的那样。建筑领域使用专门的词汇,术语在一般用法中很少见。

为了解决这些挑战,他们设计了一个三阶段系统:(a)他们使用大型语言模型(LLM)从嘈杂的互联网图像元数据中提取语义伪标签。 (b) 他们使用这些伪标签和场景视图之间的对应关系来学习图像级和像素级语义。特别是,他们使用多视图监督微调图像分割模型(CLIPSegFT),其中放大视图及其相关的伪标签(例如与术语“鼓室”相关的左侧图像)提供监督信号用于缩小视图。 (c) 然后,他们提升这种语义理解,以学习新的、看不见的地标(例如右侧描绘的圣保罗大教堂)的体积概率,从而允许使用受控的视点和照明设置渲染分段场景的视图。

此外,他们还显示了下面的可视化效果,将 HaLo-NeRF(左)与 Baseline 模型(右)进行比较,后者使用 CLIPSeg 模型而不进行微调。两个视频都显示了相同的 RGB 渲染时间序列,仅在所描述的概率上有所不同(取自他们的模型或基线)。请注意,一旦放大,他们就会关闭两个模型的概率,以便更好地查看目标语义区域。每个视频上方都写有目标文本提示,右侧是地标名称。如下图所示,他们的模型产生了明显更清晰的概率,可以更好地定位语义区域,特别是对于建筑地标领域之外不太常见的独特概念。他们还以多种外观可视化放大区域(对于他们的模型,保持基线模型的外观固定)。主论文中说明了来自 HolyScenes 基准的其他提示和地标的结果。

这项技术有几个重要的用途:

  1. 导航和定位:通过这项技术,用户可以更精确地找到地标场景中的特定区域或对象。这对于旅游导航、城市规划或者虚拟现实(VR)体验中的定位都非常重要。
  2. 增强现实(AR)和虚拟现实(VR)应用:通过提供详细的3D定位和语义信息,这项技术可以为AR和VR应用提供更加丰富和真实的场景渲染。用户可以在虚拟环境中更自然地与地标进行交互,获得更加沉浸式的体验。
  3. 文化遗产保护和展示:对于历史建筑和文化遗产,这项技术可以用于创建数字模型,进行保护和展示。通过精确的定位和语义理解,可以还原建筑的原始风貌,为学者和游客提供更加深入的了解和体验。
  4. 智能图像检索:用户可以通过输入文本描述来检索与特定地标相关的图像,或者找到图像中特定语义区域的详细信息。
  5. 自动化地标识别:这项技术可以应用于自动驾驶车辆、无人机或其他机器人设备,帮助它们更好地识别和理解地标场景,从而实现更精准的导航和任务执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/5059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode - 129双周赛

目录 一,3127. 构造相同颜色的正方形 二,3128. 直角三角形 三,3129. 找出所有稳定的二进制数组 I ​编辑 四,3130. 找出所有稳定的二进制数组 II 一,3127. 构造相同颜色的正方形 本题就是问在一个3x3的正方形中是…

2024.4.25 LoadRunner 测试工具详解 —— Controller Analysis

目录 Controller 的使用 创建场景 Controller 快捷方式创建场景 VUG 针对写好脚本创建场景 场景设计 设计初始化 设计启动机制 设计性能测试脚本的执行时间 设计虚拟用户退出机制 场景运行 添加监控指标至图标格区域 Analysis 的使用 汇总报告 测试报表 吞吐量图 …

仿9377登录注册页面源码分享

LOGO在image里面修改,名字这些有记事本打开修改 仿9377登录注册页面源码分享

《HelloGitHub》第 97 期

兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…

《Python语言科研绘图与学术图表绘制从入门到精通》解锁Python语言绘图魅力,让数据可视化成为你的科研利器!

本书特点 1.零基础高效入门:通过软件操作、实战案例及图文、代码结合的方式,实现从入门到精通的快速学习。 2.掌握多元科研绘图:涵盖科研绘图基础、各类图形绘制技巧,包括变量、极坐标、2D、3D及地理信息可视化等。 3.实用与艺术…

学习 Rust 第 22 天:mini_grep 第 2 部分

书接上文,在本文中,我们学习了如何通过将 Rust 程序的逻辑移至单独的库箱中并采用测试驱动开发 (TDD) 实践来重构 Rust 程序。通过在实现功能之前编写测试,我们确保了代码的可靠性。我们涵盖了基本的 Rust 概念,例如错误处理、环境…

Coursera: An Introduction to American Law 学习笔记 Week 06: Civil Procedure (完结)

An Introduction to American Law Course Certificate Course Introduction 本文是 https://www.coursera.org/programs/career-training-for-nevadans-k7yhc/learn/american-law 这门课的学习笔记。 文章目录 An Introduction to American LawInstructors Week 06: Civil Pro…

Python使用设计模式中的建筑模式将数据写入Excel且满足条件内容标红

对于这个任务,适合使用"Builder"设计模式。Builder模式的主要目的是将对象的构建与其表示分离,以便相同的构建过程可以创建不同的表示。在这个情况下,我们需要一个构建器来逐行构建Excel表格,并根据给定的数据添加相应的…

GoF之工厂模式

GoF之工厂模式 文章目录 GoF之工厂模式每博一文案1. 简单说明“23种设计模式”1.2 介绍工厂模式的三种形态1.3 简单工厂模式(静态工厂模式)1.3.1 简单工厂模式的优缺点: 1.4 工厂方法模式1.4.1 工厂方法模式的优缺点: 1.5 抽象工厂模式1.6 抽象工厂模式的…

Apache Seata基于改良版雪花算法的分布式UUID生成器分析2

title: 关于新版雪花算法的答疑 author: selfishlover keywords: [Seata, snowflake, UUID, page split] date: 2021/06/21 本文来自 Apache Seata官方文档,欢迎访问官网,查看更多深度文章。 关于新版雪花算法的答疑 在上一篇关于新版雪花算法的解析中…

C++初阶学习第四弹——类与对象(中)——刨析类与对象的核心点

类与对象(上):C初阶学习第三弹——类与对象(上)——初始类与对象-CSDN博客 前言: 在前面文章中,我们已经讲了类与对象的思想和类与对象的一些基本操作,接下来这篇文章我们将讲解以下…

探索Jellyfin:支持Android的自由开源的媒体服务器平台

探索Jellyfin:支持Android的自由开源的媒体服务器平台 I. 简介 A. 什么是Jellyfin? Jellyfin是一个自由开源的媒体服务器平台,旨在让用户能够自主管理和流式传输他们的媒体内容。与许多闭源的商业媒体服务器解决方案不同,Jelly…

Matlab各个版本介绍、区别分析及推荐

MATLAB,由美国MathWorks公司出品,是一款广泛应用的商业数学软件。自其诞生之初,MATLAB便以其强大的矩阵计算能力、灵活的编程环境以及广泛的应用领域,赢得了全球科研工作者和工程师的青睐。本文将详细介绍MATLAB的各个版本&#x…

ubuntu neo4j 下载与配置(一)

neo4j 官方下载页面 https://neo4j.com/deployment-center/#community 进入页面之后,往下滑 咱们在下载neo4j时,官方可能要咱们填写一下个人信息,比如:姓名组织结构邮箱等: 咱们可以观察一下,ne4j的下载链…

如何下载钉钉群直播回放:完整步骤解析

在当今快节奏的商业和教育环境中,钉钉群直播已经成为了沟通和学习的重要工具。直播结束后,很多观众都希望回顾内容,但却不知如何开始。如果你错过了实时直播,或者只是想再次观看精彩的演讲和讨论,那么下载钉钉群直播回…

基于ESP32—CAM物联网WIFI小车

一.功能概述 摄像头的画面可以实时的传输到,点灯科技APP的手机端,这样可以实时查看周围环境的状况,灯光不足,画面不清晰时可以打开灯光照明。手机端有左转、右转、前进、后退、停止的按钮。可以根据自己需要,来控制小车…

GitHub Copilot申请和使用

GitHub Copilot申请和使用 文章目录 前言一、申请二、使用总结 前言 之前已经成功进行了Github学生认证,今天邮件通知之前的学生认证已经通过。那么就去进行GitHub Copilot申请和使用。 前面准备:Github学生认证 一、申请 进入github的settings&#x…

Eclipse:-Dmaven.multiModuleProjectDirectory system propery is not set.

eclipse中使用maven插件的时候,运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指向你的maven安装目录 M2_HOMED:\Apps\…

Deckset for Mac激活版:MD文档转幻灯片软件

Deckset for Mac是一款专为Mac用户打造的Markdown文档转幻灯片软件。它凭借简洁直观的界面和强大的功能,成为许多用户的心头好。 Deckset for Mac激活版下载 Deckset支持Markdown语法,让用户在编辑文档时无需分心于复杂的格式设置,只需专注于…

【docker 】Windows10安装 Docker

安装 Hyper-V Hyper-V 是微软开发的虚拟机,仅适用于 Windows 10。 按键: win键X ,选着程序和功能 在查找设置中输入:启用或关闭Windows功能 选中Hyper-V 点击确定 安装 Docker Desktop for Windows Docker Desktop 官方下载…