李飞飞:不要数字孪生,要数字表兄弟,一张照片生成机器人训练场景

我们很多人都听说过数字孪生(digital twin),在英伟达等公司的大力推动下,这种高效运营工作流程的方法已经在很多工业场景中得到应用。

但你听说过数字表亲(digital cousin)吗?

近日,斯坦福大学李飞飞团队就做出了一个这样的研究,其可有效地将真实数据变成适用于机器人学习的模拟数据 —— 在降低真实转模拟成本的同时还能提升学习的泛化性能。

图片

简单来说,你只需拍一张照片,就能将照片中的物体变成虚拟版本,并且这个数字虚拟版本还不是照片中物体的一比一复刻,而是存在一定的变化。

在这里插入图片描述

我们知道,在真实世界中训练机器人并不安全,而且成本很高,难以大规模扩展。这就是模拟的用武之地,其成本低,并且可以源源不断地获取训练数据。但是,模拟的问题也很明显,模拟环境和真实环境总归不一样,存在含义和物理机制上的差异。

为了解决这种差异,数字孪生的概念诞生了。简单来说,数字孪生就是为真实场景构建一个虚拟副本,但其成本很高,并且难以实现跨域泛化。

为了解决这些局限,李飞飞团队提出了**数字表亲(digital cousin)**的概念。不同于数字孪生,数字表亲并不是真实物体的虚拟对应,而只是具有相似的几何和语义特质和属性。

图片

  • 论文标题:ACDC: Automated Creation of Digital Cousins for Robust Policy Learning
  • 论文链接:https://arxiv.org/abs/2410.07408
  • 项目地址:https://digital-cousins.github.io/

如此一来,数字表亲既能降低生成相似的虚拟环境的成本,还能通过提供相似训练场景的分布而实现更好的跨域泛化。基于数字表亲,该团队提出了一种用于自动创建数字表亲的全新方法,该方法就叫做自动数字表亲创建(Automatic Creation of Digital Cousins),简称 ACDC。

他们还提出了一种全自动的「真实→虚拟→真实」流程,可用于生成完全可交互的场景以及训练可以零样本方式部署在原始场景中的机器人策略。

结果表明,ACDC 得到的数字表亲可以成功保留几何与语义特质和属性,同时训练得到的机器人策略也优于使用数字孪生得到的策略:在零样本虚拟→真实迁移条件下,能以 90% 的成功率胜过数字孪生的 25%。

方法概述

ACDC 由三个连续步骤构成:

  1. 首先,从输入的 RGB 图像中提取出每个物体的相关信息。
  2. 接下来,基于一个资产数据集,使用该信息来为每个检测到的输入物体匹配数字表亲。
  3. 最后,对选取的数字表亲进行后处理,生成一个完全可交互的模拟场景。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实验

该团队进行一系列实验,试图解答以下研究问题:

问题 1:ACDC 能否得到高质量的数字表亲场景?给定一张 RGB 图像,ACDC 能否捕获原始场景中固有的高层级语义和空间细节?

问题 2:当在原始设置上进行评估时,基于数字表亲训练得到的策略能否与基于数字孪生得到的策略相媲美?

问题 3:相比于基于数字孪生训练得到的策略,基于数字表亲训练得到的策略是否更加稳健

问题 4:基于数字表亲训练得到的策略能否实现零样本「虚拟→真实」策略迁移

通过 ACDC 进行场景重建

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在模拟 - 模拟场景中,ACDC 对场景重建进行定量和定性评估。

其中,「Scale」是输入场景中两个物体的边界框之间的最大距离。「Cat.」表示正确分类的物体与场景中物体总数的比例。「Mod.」显示正确建模的物体与场景中物体总数的比例。「L2 Dist.」提供输入和重建场景中边界框中心之间的欧几里得距离的平均值和标准差。「Ori. Diff.」表示每个中心对称物体的方向幅度差异的平均值和标准差。「Bbox IoU」表示资产 3D 边界框的交并比 (IoU)。

在这里插入图片描述

定性 ACDC 真实 - 模拟场景重建结果。针对给定场景显示多个表亲。

基于这些结果,我们可以放心地回答问题 1:ACDC 确实可以保留输入场景的语义和空间细节,从单个 RGB 图像生成现实世界对象的表亲,这些表亲可以准确定位和扩展,以匹配原始场景。

使用数字表亲进行模拟 - 模拟策略学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模拟-模拟策略结果。

在精确孪生、不同数量的表亲和三个最近类别的所有资产上训练的策略的汇总成功率。策略在四种设置上进行测试:精确数字孪生和三种越来越不相似的设置(以 DINOv2 嵌入距离为衡量标准)以探测零样本泛化。请注意,对于任务 3,使任务可行的橱柜模型要少得多,因此这里仅比较数字孪生和 8 个表亲的策略。

使用数字表亲进行模拟-真实策略学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字孪生与数字表亲策略的零样本真实世界评估。任务是打开宜家橱柜的门,衡量标准是成功率:模拟 / 真实结果在 50/20 次试验中取平均值。

真实-模拟-真实的场景生成和策略学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

全自动数字表亲生成。ACDC 的无剪切视频完全自动执行,为真实厨房场景生成了多个数字表亲。ACDC 步骤 1 末尾的轴对齐边界框无需加速即可做到可视化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

零样本模拟到真实世界策略迁移。专门从上面生成的四个数字表亲训练的模拟策略,我们可以零样本迁移到相应的真实厨房场景。

基于这些结果,我们可以放心地回答问题 2、3、4:与在数字孪生上训练的策略相比,使用数字表亲训练的策略表现出相当的分布内性能和更稳健的分布外性能,并且可以实现零样本模拟到真实策略迁移。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一些失败的案例。

结论

作为一种全自动管道,ACDC 用于快速生成与单个现实世界 RGB 图像相对应的完全交互式数字表亲场景。我们可以发现,利用这些数字表亲训练的策略比在数字孪生上训练的策略更稳健,具有可媲美的域内性能和卓越的域外泛化能力,同时也支持零样本模拟到现实的策略转移。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
在这里插入图片描述

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/57347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML/JS添加音乐

HTML/JS添加背景音乐 由于需要避免浏览器不必要的资源消耗&#xff0c;音乐播放必须要有事件触发 文章目录 HTML/JS添加背景音乐htmljs手机浏览器自动播放 html 在body中添加你的音乐 <body> <audio autoplay"autopaly" loop"loop" id"audio…

2024年【浙江省安全员-C证】复审考试及浙江省安全员-C证证考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 浙江省安全员-C证复审考试是安全生产模拟考试一点通总题库中生成的一套浙江省安全员-C证证考试&#xff0c;安全生产模拟考试一点通上浙江省安全员-C证作业手机同步练习。2024年【浙江省安全员-C证】复审考试及浙江省…

vue3环境变量和模式

文章目录 一、vite文档介绍环境变量1.环境变量1.1创建文件 2.NODE_ENV 和 模式**2.1process.env.NODE_ENV&#xff08;Node.js 环境变量&#xff09;**2.2 **模式&#xff08;mode&#xff09;** 二、loadEnv获取环境变量&#xff08;针对在env文件夹下&#xff09;2.1创建环境…

FPGA图像处理之三行缓存

文章目录 一、前言二、FPGA实现三行缓存的架构三、Verilog代码实现四、仿真验证五、输入图像数据进行仿真验证 一、前言 在 FPGA 做图像处理时&#xff0c;行缓存是一个非常重要的一个步骤&#xff0c;因为图像输入还有输出都是一行一行进行的&#xff0c;即处理完一行后再处理…

【Golang】踩坑记录:make()创建引用类型,初始值是不是nil!!

文章目录 起因二、得记住的知识点1. make()切片&#xff0c;初始化了吗&#xff1f;2. make()切片不同长度容量&#xff0c;append时的差别3. 切片是指向数组的指针吗&#xff1f;4. 切片扩容时&#xff0c;重新分配内存&#xff0c;原切片的数据怎么办&#xff1f; 三、咳咳&a…

Linux 安装 JDK 环境

最近有小伙伴不怎么会在 Linux 服务器安装 JDK 环境&#xff0c;小格子给大家总结分享一下&#xff0c;下次直接看这篇文章就可以了。下面以 CentOS 为例。 1. 下载 JDK 安装包 由于 JDK1.8.202 是最后一个免费版本&#xff0c;建议下载此版本。由于在 Oracle 官方网站下载需…

JS | JS之元素偏移量 offset 系列属性详解

目录 一、offset 概述 定位父级 offsetParent 偏移量 offsetWidth offsetHeight offsetLeft offsetTop 计算页面偏移 注意事项 二、offset 与 style 区别 偏移offset 样式style 三、案例 ★ 案例&#xff1a;获取鼠标在盒子内的坐标 ★ 案例&#xff1a;模态框…

软件测试学习笔记丨Pytest的使用

本文转自测试人社区&#xff0c;原文链接&#xff1a;https://ceshiren.com/t/topic/22158 1. 简介 pytest是一个成熟的全功能python测试框架测试用例的skip和xfail&#xff0c;自动失败重试等处理能够支持简单的单元测试和复杂的功能测试&#xff0c;还可以用来做selenium/ap…

2024互联网大厂营收排名:京东/阿里/华为前三,超多技术岗都在热招!

2024年已经过去一大半&#xff0c;各大互联网大厂的竞争如火如荼&#xff0c;营收都取得了不俗的成绩&#xff0c;京东、阿里、华为分别占领前三&#xff01; 第四第五名则为华为和拼多多。 根据排行榜里的公司名单&#xff0c;小码特意为大家整理了一批各大厂的招聘岗位。 阿…

super()和super().__init__()的解释

一、super 1.基本概念 在python继承当中&#xff0c;super()函数主要用在子类中调用父类的方法。它返回一个特殊对象&#xff0c;这个对象会帮我们调用父类方法 class Parent:def __init__(self, name):self.name namedef say_hello(self):print(f"Hello, Im {self.nam…

【论文#快速算法】Fast Intermode Decision in H.264/AVC Video Coding

目录 摘要1.前言2.帧间模式决策概览2.1 H.264/AVC中的帧间模式决策2.2 发现和动机 3.同质性和平稳性的确定3.1 同质性区域的确定3.2 稳定性区域的决定3.3 整体算法 4.实验结果4.1 IPPP序列的测试4.2 IBBP序列测试 5.结论 《Fast Intermode Decision in H.264/AVC Video Coding》…

基础数据结构——数组(动态数组,二维数组,缓存与局部性原理)

1.概述 在计算机科学中&#xff0c;数组是由一组元素&#xff08;值或变量&#xff09;组成的数据结构&#xff0c;每个元素有至少一个索引或键来标识 因为数组内的元素是连续存储的&#xff0c;所以数组中元素的地址&#xff0c;可以通过其索引计算出来&#xff0c;例如&…

C# 字符串处理与正则表达式

在C#中&#xff0c;字符串&#xff08;string&#xff09;是一个非常重要的数据类型&#xff0c;用于表示文本数据。C#提供了一系列丰富的方法和属性来处理字符串&#xff0c;包括拼接、截取、查找、替换、格式化等操作。 字符串拼接 可以使用运算符来拼接字符串。也可以使用St…

三、Linux 安装全攻略

Linux 安装全攻略 在当今的科技时代&#xff0c;Linux 操作系统以其稳定性、安全性和高度的可定制性而备受青睐。本文将详细介绍 Linux 的安装过程&#xff0c;包括关键步骤和下载资源获取方式&#xff0c;帮助你顺利踏上 Linux 之旅。 一、为什么选择 Linux Linux 有许多优…

HTTP协议基础

目录 HTTP是什么 HTTP请求&#xff08;get与post&#xff09; GET 方法&#xff1a; POST 方法&#xff1a; url的基本构成 常见的请求头与响应头 请求头&#xff08;Request Headers&#xff09; 响应头&#xff08;Response Headers&#xff09; HTTP相应码 100系…

生产力工具|vscode for mac的安装python库和使用虚拟环境(一)

一、在vscode中运行python代码&#xff08;mac或windows&#xff09; &#xff08;一&#xff09;在vscode中安装Python插件 若想在vscode中高效率的编辑Python代码&#xff0c;需要安装Python插件&#xff0c;点击下图中红框内的按钮&#xff1a; 然后在左上角的搜索框中输入…

Android13 添加运行时权限

在一些场景下&#xff0c;需要给app 添加运行时权限&#xff0c;这样就不需要在使用的时候再去点击授权。 直接上代码&#xff1a; --- a/services/core/java/com/android/server/pm/permission/DefaultPermissionGrantPolicy.javab/services/core/java/com/android/server/pm…

uniapp展示本地pdf + 自定义标题

概要 本文主要讲述uniapp打包的Android项目如何展示本地的PDF文件&#xff0c;并设置标题 需求分析 1、因为是打包的Android项目展示本地的PDF文件&#xff0c;首先需要拿到这个本地的PDF文件路径 2、如何在uniapp的vue页面中展示PDF&#xff0c;因为没有直接展示PDF文件的…

探讨Node.js生态中的npm与npx工具

在Node.js生态中&#xff0c;npm和npx是两个重要的工具&#xff0c;它们的功能虽然有所重叠&#xff0c;但使用场景却不同。理解它们的区别可以帮助开发者更高效地管理项目依赖与执行工具。 npm与npx的区别 npm&#xff1a;主要用于管理项目依赖。通过 npm install&#xff0…

Vue前端开发2.1 单文件组件

文章目录 一、单文件组件概念二、单文件组件构成1. 模板&#xff08;Template&#xff09;2. 样式&#xff08;Style&#xff09;3. 逻辑&#xff08;Script&#xff09; 三、单文件组件演示1. 创建Vue项目2. 启动Vue项目3. 用VS Code打开项目4. 清空样式文件代码5. 创建欢迎组…