Meta 推出SceneScript,一种全新的3D场景重建方式

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

https://www.projectaria.com/scenescript/

在今天的科技领域,元实验室研究团队宣布了一个名为“场景脚本”的创新方法,旨在重塑环境布局和表示物理空间的布局。这种方法通过模拟训练,利用了仅供学术使用的Aria Synthetic Environments数据集。想象一下,如果有一副既时尚又轻便的眼镜,能够结合上下文化的人工智能和显示屏,为你实时提供信息并在你日常生活中主动提供帮助,那将会是怎样的体验?为了实现这样一副增强现实(AR)眼镜,系统必须能够理解你的物理环境布局和世界的3D形状。这种理解能让AR眼镜根据你的个人情境定制内容,如将数字叠加物无缝融合进你的物理空间,或者在你探索陌生地点时提供逐步导航帮助。

Meta script

然而,构建这些3D场景表示是一项复杂的任务。现有的混合现实头盔,如Meta Quest 3,是基于来自摄像头或3D传感器的原始视觉数据来创建物理空间的虚拟表示。这些原始数据被转换成描述环境独特特征的一系列形状,如墙壁、天花板和门。通常,这些系统依靠预定义的规则将原始数据转换成形状。然而,这种启发式方法经常会导致错误,特别是在具有独特或不规则几何形状的空间中。

元实验室研究团队今天介绍的场景脚本,采用了一种全新的生成场景布局和表示场景的方法。与其使用硬编码规则将原始视觉数据近似转换成房间的建筑元素,场景脚本则是训练直接推断出房间的几何形状。这导致了一种紧凑的物理场景表示形式,不仅减少了内存需求,还能产生类似于可伸缩矢量图形的清晰几何形状,并且重要的是,这种表示形式易于理解和编辑。

场景脚本是如何训练的?大型语言模型(LLMs),如Llama,使用一种称为下一令牌预测的技术,模型根据之前的单词预测句子中的下一个单词。例如,如果你输入“这只猫坐在……”模型可能会预测下一个单词是“垫子”或“地板”。场景脚本利用了LLMs所使用的同一概念。然而,它不是预测一般的语言令牌,而是预测下一个建筑令牌,如“墙”或“门”。

通过提供大量的训练数据,场景脚本模型学习如何将视觉数据编码成场景的基本表示,然后解码成描述房间布局的语言。这使得场景脚本能够从视觉数据中解读和重构复杂环境,并创建有效描述其分析场景结构的文本描述。

培训场景脚本所面临的独特挑战在于,尽管LLMs依赖于从网络上公开可用的文本来源获取的大量训练数据,但对于训练端到端模型所需的物理空间的规模,尚不存在此类信息库。因此,元实验室研究团队不得不寻找另一种解决方案。他们创建了一个名为Aria Synthetic Environments的室内环境合成数据集,该数据集包含100,000个完全独特的室内环境,每个环境都使用场景脚本语言描述,并配有模拟的场景漫游视频。

这种方法使得场景脚本模型可以完全在模拟条件下,保护隐私的情况下进行训练。然后,可以使用来自项目Aria眼镜的实际世界视频来验证模型的泛化能力。

去年,他们将Aria Synthetic Environments数据集提供给学术研究人员,希望这将有助于加速这一令人兴奋的研究领域内的公共研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/764625.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【洛谷 P8709】[蓝桥杯 2020 省 A1] 超级胶水 题解(贪心算法+优先队列+哈夫曼树)

[蓝桥杯 2020 省 A1] 超级胶水 题目描述 小明有 n n n 颗石子,按顺序摆成一排,他准备用胶水将这些石子粘在一起。 每颗石子有自己的重量,如果将两颗石子粘在一起,将合并成一颗新的石子,重量是这两颗石子的重量之和…

Zabbix与Prometheus区别简述

Zabbix与Prometheus区别简述 历史沿革 一、监控工具简介 1、Zabbix https://www.zabbix.com/cn/download Zabbix是传统的监控系统,出现比云原生早,使用的是SQL关系型数据库;开源监控软件,遵守 GPLv2开源协议,起源于…

高架学习笔记之系统分析与设计

目录 一、结构化方法(SASD) 1.1. 结构化分析方法(SA) 1.1.1. 数据流图(DFD) 1.1.2. 实体联系图(E-R图) 1.1.3. 状态转换图(STD) 1.1.4. 数据字典 1.2. 结构化设计方法&#x…

【wpf应用8】如何让WPF Grid控件根据屏幕尺寸自动调整

简介: 在Windows Presentation Foundation(WPF)中,Grid控件是一个强大的布局工具,它允许开发者创建复杂且响应迅速的用户界面。在不同的设备和屏幕尺寸上保持良好的布局一致性是一个挑战。本文将介绍如何让Grid控件根据…

Prometheus Grafana 配置仪表板

#grafana# 其实grafana提供了丰富的Prometheus数据源的仪表板,基本上主流的都有,通过下面官方地址可查阅 Dashboards | Grafana Labs 这里举例说明,配置node_exporter仪表板 首先,在上面的网站搜索 node 可以查到蛮多的仪表板…

【现代C++】统一初始化

现代C中的统一初始化(Uniform Initialization)是C11引入的一项特性,它提供了一种统一的语法来初始化任何类型的对象。统一初始化旨在增强代码的一致性和清晰度,减少传统初始化方式中的歧义。以下是统一初始化的几种用法及相应的示…

【贪心】【回溯】【字符串】2014. 重复 K 次的最长子序列

本文涉及知识点 贪心 回溯 字符串 LeetCode2014. 重复 K 次的最长子序列 给你一个长度为 n 的字符串 s ,和一个整数 k 。请你找出字符串 s 中 重复 k 次的 最长子序列 。 子序列 是由其他字符串删除某些(或不删除)字符派生而来的一个字符串…

小白DB补全计划Day2-LeetCode:SQL基本操作selectJOIN

链接:1683. 无效的推文 - 力扣(LeetCode)1378. 使用唯一标识码替换员工ID - 力扣(LeetCode)1068. 产品销售分析 I - 力扣(LeetCode) 来源:LeetCode 1683 # Write your MySQL quer…

网络安全笔记-day6,NTFS安全权限

文章目录 NTFS安全权限常用文件系统文件安全权限打开文件安全属性修改文件安全权限1.取消父项继承权限2.添加用户访问权限3.修改用户权限4.验证文件权限5.总结权限 强制继承父项权限文件复制移动权限影响跨分区同分区 总结1.权限累加2.管理员最高权限2.管理员最高权限 NTFS安全…

仿京东项目——京西商城(数据库设计)

文章目录 仿京东——京西商城数据库设计建立E-R图数据库表设计用户表商品表订单表订单详情表评论表购物车表购物车项表 仿京东——京西商城 数据库设计 主要实体有: 用户 用户ID(User_ID):唯一标识用户的主键 用户名&#xff0…

同豪BIM模型如何快速修改路面、桥面、梁板颜色

0序 同豪的建模软件,做路桥隧的bim建模,速度很快。缺点就是他们的模型可以认为是没有颜色。只有自带的几种风格、纹理。 部分领导觉得颜色不好看,与背景色对比度不强,甚至甲方也会要求修改模型颜色,使之更醒目&#x…

数据集预处理

1.目标 将数据集图像通过预处理方法调整为统一大小尺寸,以便于后续模型提取特征。 2.常见的图像数据预处理方法 2.1图像尺度变换 1.图像缩放(使用OpenCV库): import cv2def resize_image(image, width, height):resized_imag…

FFmpeg-- mp4文件合成1:aac和h264封装(c++实现)

文章目录 流程api核心代码muxer.hmuxer.cppaac 和 h264 封装为视频流,封装为c++的Muxter类 流程 分配视频文件上下文 int Init(const char *url); 创建流,赋值给视频的音频流和视频流 int AddStream(AVCodecContext *codec_ctx); 写视频流的head int SendHeader(); 写视频流的…

数字乡村引领新风尚:科技赋能农村实现全面进步

随着信息技术的迅猛发展,数字乡村正成为引领农村全面进步的新风尚。科技作为推动农村发展的强大引擎,正在深刻改变着传统农业的生产方式、农村的社会结构以及农民的生活方式,为农村经济社会的全面进步注入了新的活力和动力。本文将从数字乡村…

JVM—内存可见性

什么是可见性 可见性:一个线程对共享变量值的修改,能够及时地被其他线程看到共享变量:如果一个变量在多个线程的工作内存中都存在副本,那么这个变量就是这几个线程的共享变量 Java内存模型(JMM) Java内存模型(Java Memory Model)描述了Java程序中各种…

(delphi11最新学习资料) Object Pascal 学习笔记---第7章第4节(Self 标识符)

7.4 Self 标识符 ​ 我们已经看到类的方法非常类似于过程和函数。真正的区别在于,方法有一个额外的隐式参数。这是对当前对象的引用,即应用方法的对象。在方法中,您可以使用Self标识符引用这个参数,即当前对象,如前面…

【Java前端技术栈】Vue2、Vue Cli、Axio入门

一、基本介绍 1.Vue 是什么? Vue (读音 /vjuː/,类似于 view) 是一个前端框架, 易于构建用户界面 2. Vue 的核心库只关注视图层,不仅易于上手,还便于与第三方库或项目整合 3. 支持和其它类库结合使用 4. 开发复杂的单页应用非常方便 5.…

动态规划——数字三角形模型

母题:数字三角形 集合:f[i][j]表示所有从起点走到 ( i , j ) (i,j) (i,j)的路径 属性:f[i][j]存的数是集合中所有路径和的最大值 状态计算:对于每一条从起点到 ( i , j ) (i,j) (i,j) 的路径,其要么是从左上方来的…

如何了解AI基础概念

1. **在线课程和教程:** - 寻找在线AI课程或教程,例如Coursera、edX、Udemy等平台上的课程。这些课程通常会从基础概念开始介绍,逐步深入。 2. **书籍阅读:** - 阅读与AI相关的书籍,如《Python深度学习》、《机…

[Rust] 使用vscode实现HelloWorld程序并进行debug

一、简介 本文介绍了如何使用vscode编写rust,实现打印"Hello, world!"的程序。 二、工具安装 0. 环境介绍: Linux (或者windowswsl) 1. 安装rust编译器rustc和包管理器cargo。 请参考连接:Rust 程序设…