LangSplat和3D language fields简略介绍

LangSplat: 3D Language Gaussian Splatting

  1. 相关技术拆分解释:
    • 3dgs:伟大无需多言
    • SAM:The Segment Anything Model,是图像分割领域的foundational model,已经用在很多视觉任务上(如图像修复、物体追踪、图像编辑等),以及用在3D领域中,后者相关工作如:
      • Seal:将包含SAM的VFMs用于点云分割
      • SA3D:将SAM泛化到3D物体
      • 本篇:使用SAM得到物体掩码以及3个hierarchical semantics,进而训练一个3D language field
    • 3D Language Fields:能够使用语言与三维世界进行交互和查询的模型
  2. LangSplat的framework图:
    请添加图片描述
    输入从不同角度获取的同一场景的图像集,SAM基于输入的多视角图像生成层次化语义(Hierarchical Semantics),然后这些分割的掩码图会输入CLIP(视觉语言模型),使得图像和文本特征对齐、输出图像对应的language embeddings。为了降低内存成本,先会将这些高维embeddings压缩到低维空间,然后三维语言高斯模型学习这些低维的language embeddings,并反复执行渲染、监督的迭代过程。训练完成后,模型中的每个高斯点都包含了与language embedding相关的特征,并能够支持三维场景语言查询
    • SAM将图像分割成三个语义层次:Whole(整个玩具熊)、Part(玩具熊的头)、Subpart(玩具熊的鼻子)
    • CLIP的原理:通过从图像块中提取language embeddings,将视觉信息转换为可以与语言描述对应的特征
    • autoencoder:高维CLIP --encoder–> 低维latent space --decoder–> 高维CLIP

3D Language Fields

  1. 是什么:modeling a 3D language field allows users to interact with and query 3D worlds using open-ended language, which presents a promising avenue for human-computer interaction and understanding. 如用户输入“椅子”、“桌子”,系统能够在三维场景中识别、定位或分割出与查询相关的对象。将自然语言与三维场景联系起来,支持用户通过语言与三维世界进行交互和查询
  2. 应用场景:The field of open-ended language queries in 3D has attracted increasing attention due to its various applications such as:
    • robotic navigation
    • manipulation
    • 3D semantic understanding
    • editing
    • autonomous driving
    • augmented/virtual reality
  3. 原理:Feature distillation from off-the-shelf vision-language models into a 3D scene
    • LERF:将CLIP(Contrastive Language-Image Pre-training)等模型中的语言嵌入到NeRF中,从而使得3D开放式语言查询成为可能。LERF将位置和物理尺度(尺度的作用:决定一个位于熊鼻子上的点是对应“熊的鼻子”、还是“熊的头”、还是“熊”)作为输入,输出单个CLIP向量
    • LangSplat:首个基于3DGS的三维语言场方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/56575.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

支持国密算法的数字证书-国密SSL证书详解

在互联网中,数字证书作为标志通讯各方身份信息的数字认证而存在,常见的数字证书大都采用国际算法,比如RSA算法、ECC算法、SHA2算法等。随着我国加强网络安全技术自主可控的大趋势,也出现了支持国密算法的数字证书-国密SSL证书。那…

OpenCV高级图形用户界面(21)暂停程序执行并等待用户按键输入函数waitKey()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 等待按键 该函数 waitKey 在 delay≤0 时无限等待按键事件,或者在 delay 为正数时等待 delay 毫秒。由于操作系统在切换线程时有最小…

一文详解视频参数——FFmpeg -i选项下的视频参数解析

随着多媒体内容在网络上的日益普及,对视频文件的处理需求也变得越来越重要。FFmpeg 是一款强大的跨平台音视频编解码库及工具集,能够帮助开发者实现对音频、视频文件的转码、剪辑、合并等多种功能。本文将重点探讨如何利用 ffmpeg -i xxx.mp4 来获取视频文件的基本信息,并对…

前端工程启动工具

一些思考 在公司项目中,需要启一个新的前端工程(一个基于Webpack的React工程)。因为同一个项目中有其他的前端工程,我们最开始想的是参考另外一个工程的配置重启一个新的工程,但是又因为原来的工程用的库版本都比较老…

软件设计师:软件工程

文章目录 一、开发模型(1)瀑布模型(需求明确)(2)增量模型(快速构建)(3)演化模型(迭代模型)(3.1)原型模型&…

自学C语言——函数(全)

接上一篇:自学C语言——数组(二) 1.函数的概念 C语言中:函数子程序 C语言中的函数就是一个完成某项特定的任务的一小段代码。 2.库函数 标准库和头文件 C语言标准中规定了C语言的语法规则,C语言不提供库函数&am…

Ubuntu 22.04上安装Miniconda

在Ubuntu 22.04上安装Miniconda,可以按照以下步骤进行: 步骤1:更新系统 首先,更新您的系统软件包: sudo apt update sudo apt upgrade -y步骤2:下载Miniconda安装脚本 访问Miniconda的官方网站或使用以下…

IAR全面支持旗芯微车规级MCU,打造智能安全的未来汽车

中国上海,2024年10月18日 — 在全球汽车电子快速发展的今天,IAR与苏州旗芯微半导体有限公司(以下简称“旗芯微”)联合宣布了一项激动人心的合作——IAR Embedded Workbench for Arm 9.60.2版本现已全面支持旗芯微车规级MCU&#x…

【Docker】docker | 部署nginx

一、概述 记录下nginx的部署流程;将conf配置文件映射到宿主机 前提依赖:自行准备nginx的镜像包 二、步骤 1、运行、无映射 docker run --name nginx -p 80:80 -d nginx:1.18.0-alpine 80:80,前面是宿主机端口;如果冲…

IPsec简单介绍

VPN相关介绍 VPN:虚拟私有网络 例如:像这种不加密的 PPTPL2TP ------- 一般用在windows server 服务端(但是大多数企业不用这个) 假如总公司内部的PC1要去访问分公司内部的PC2(一般用在公司服务器有内网的服务&#…

vue需要清除定时器和延时器吗

在更新组件时清除定时器: 如果你的定时器是在组件的更新过程中创建的,你可能需要在更新前清除它,以免重复创建。你可以在组件的beforeUpdate钩子中清除定时器。 例如,在Vue2中,你可以这样清除定时器: exp…

【知识科普】今天聊聊前端打包工具webpack

文章目录 webpack概述1. 入口(Entry)2. 输出(Output)3. Loader4. 插件(Plugins)5. 模式(Mode)6. 浏览器兼容性(Browser Compatibility)7. 环境(En…

Oracle 使用位图索引 Cost降低200倍! 探讨位图索引的利与弊

一.简介 位图索引(Bitmap Index) 是 Oracle 数据库中一种特殊类型的索引,适用于低基数(Low Cardinality)列,即那些列中可选值相对较少的情况下使用。它与常规的 B-tree 索引不同,位图索引通过位…

Vue组件学习 | 二、Vuex组件

Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式和库。它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化。以下是 Vuex 的基本用法 Vuex 基本用法 安装 Vuex 首先,你需要安装 Vuex。如果你使用的是 n…

003:无人机概述

摘要:本文介绍无人机的定义和分类、无人机系统定义、民用无人机驾驶员分类和应用领域。 一、无人机的定义和分类 1.无人机定义 无人机是一种能够在无人驾驶的条件下完成复杂空中飞行任务和各种负载任务的飞行器,可以被视为“空中机器人”。它利用先进的…

(48)MATLAB使用firls函数设计均衡器

文章目录 前言一、频域均衡器的设计二、MATLAB源代码1.firls函数与freqz函数2.MATLAB仿真源代码3.代码说明 三、仿真结果画图 前言 利用MATLAB的firls函数,根据所要求的频率向量和频响幅度向量,设计出所需的均衡器,使得包括滤波器在内的系统…

【python爬虫】python的requests模块使用`Session`对象可以保持会话状态,自动处理Cookie等信息

1. 请求发送 网络爬虫的第一步是发送HTTP请求。Python中的requests库是发送请求的首选工具,它简单易用且功能强大。 使用requests库 import requestssession requests.Session() session.headers {"User-Agent": "Mozilla/5.0",# 其他请求…

qt 构建、执行qmake、运行、重新构建、清除

qt右键功能有 构建、执行qmake、运行、重新构建、清除,下面简单介绍一下各个模块的作用。 1. 执行qmake qmake是一个工具, 它根据pro文件生成makefile文件,而makefile文件中则定义编译与连接的规则。pro文件中定义了头文件,源文件…

C语言_通讯录_进阶

引言:在之前的项目中,我们所用的通讯录是静态版本,也就是常规的固定数组大小,但仔细思考,在现实的复杂环境中,是很难做到这样死板,所以在学习过动态内存的章节后,我们将通讯录重新修…

Spring Cache Caffeine 高性能缓存库

​ Caffeine 背景 Caffeine是一个高性能的Java缓存库,它基于Guava Cache进行了增强,提供了更加出色的缓存体验。Caffeine的主要特点包括: 高性能:Caffeine使用了Java 8最新的StampedLock乐观锁技术,极大地提高了缓存…