李飞飞:不要数字孪生,要数字表兄弟,一张照片生成机器人训练场景

我们很多人都听说过数字孪生(digital twin),在英伟达等公司的大力推动下,这种高效运营工作流程的方法已经在很多工业场景中得到应用。

但你听说过数字表亲(digital cousin)吗?

近日,斯坦福大学李飞飞团队就做出了一个这样的研究,其可有效地将真实数据变成适用于机器人学习的模拟数据 —— 在降低真实转模拟成本的同时还能提升学习的泛化性能。

图片

简单来说,你只需拍一张照片,就能将照片中的物体变成虚拟版本,并且这个数字虚拟版本还不是照片中物体的一比一复刻,而是存在一定的变化。

在这里插入图片描述

我们知道,在真实世界中训练机器人并不安全,而且成本很高,难以大规模扩展。这就是模拟的用武之地,其成本低,并且可以源源不断地获取训练数据。但是,模拟的问题也很明显,模拟环境和真实环境总归不一样,存在含义和物理机制上的差异。

为了解决这种差异,数字孪生的概念诞生了。简单来说,数字孪生就是为真实场景构建一个虚拟副本,但其成本很高,并且难以实现跨域泛化。

为了解决这些局限,李飞飞团队提出了**数字表亲(digital cousin)**的概念。不同于数字孪生,数字表亲并不是真实物体的虚拟对应,而只是具有相似的几何和语义特质和属性。

图片

  • 论文标题:ACDC: Automated Creation of Digital Cousins for Robust Policy Learning
  • 论文链接:https://arxiv.org/abs/2410.07408
  • 项目地址:https://digital-cousins.github.io/

如此一来,数字表亲既能降低生成相似的虚拟环境的成本,还能通过提供相似训练场景的分布而实现更好的跨域泛化。基于数字表亲,该团队提出了一种用于自动创建数字表亲的全新方法,该方法就叫做自动数字表亲创建(Automatic Creation of Digital Cousins),简称 ACDC。

他们还提出了一种全自动的「真实→虚拟→真实」流程,可用于生成完全可交互的场景以及训练可以零样本方式部署在原始场景中的机器人策略。

结果表明,ACDC 得到的数字表亲可以成功保留几何与语义特质和属性,同时训练得到的机器人策略也优于使用数字孪生得到的策略:在零样本虚拟→真实迁移条件下,能以 90% 的成功率胜过数字孪生的 25%。

方法概述

ACDC 由三个连续步骤构成:

  1. 首先,从输入的 RGB 图像中提取出每个物体的相关信息。
  2. 接下来,基于一个资产数据集,使用该信息来为每个检测到的输入物体匹配数字表亲。
  3. 最后,对选取的数字表亲进行后处理,生成一个完全可交互的模拟场景。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实验

该团队进行一系列实验,试图解答以下研究问题:

问题 1:ACDC 能否得到高质量的数字表亲场景?给定一张 RGB 图像,ACDC 能否捕获原始场景中固有的高层级语义和空间细节?

问题 2:当在原始设置上进行评估时,基于数字表亲训练得到的策略能否与基于数字孪生得到的策略相媲美?

问题 3:相比于基于数字孪生训练得到的策略,基于数字表亲训练得到的策略是否更加稳健

问题 4:基于数字表亲训练得到的策略能否实现零样本「虚拟→真实」策略迁移

通过 ACDC 进行场景重建

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在模拟 - 模拟场景中,ACDC 对场景重建进行定量和定性评估。

其中,「Scale」是输入场景中两个物体的边界框之间的最大距离。「Cat.」表示正确分类的物体与场景中物体总数的比例。「Mod.」显示正确建模的物体与场景中物体总数的比例。「L2 Dist.」提供输入和重建场景中边界框中心之间的欧几里得距离的平均值和标准差。「Ori. Diff.」表示每个中心对称物体的方向幅度差异的平均值和标准差。「Bbox IoU」表示资产 3D 边界框的交并比 (IoU)。

在这里插入图片描述

定性 ACDC 真实 - 模拟场景重建结果。针对给定场景显示多个表亲。

基于这些结果,我们可以放心地回答问题 1:ACDC 确实可以保留输入场景的语义和空间细节,从单个 RGB 图像生成现实世界对象的表亲,这些表亲可以准确定位和扩展,以匹配原始场景。

使用数字表亲进行模拟 - 模拟策略学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模拟-模拟策略结果。

在精确孪生、不同数量的表亲和三个最近类别的所有资产上训练的策略的汇总成功率。策略在四种设置上进行测试:精确数字孪生和三种越来越不相似的设置(以 DINOv2 嵌入距离为衡量标准)以探测零样本泛化。请注意,对于任务 3,使任务可行的橱柜模型要少得多,因此这里仅比较数字孪生和 8 个表亲的策略。

使用数字表亲进行模拟-真实策略学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字孪生与数字表亲策略的零样本真实世界评估。任务是打开宜家橱柜的门,衡量标准是成功率:模拟 / 真实结果在 50/20 次试验中取平均值。

真实-模拟-真实的场景生成和策略学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

全自动数字表亲生成。ACDC 的无剪切视频完全自动执行,为真实厨房场景生成了多个数字表亲。ACDC 步骤 1 末尾的轴对齐边界框无需加速即可做到可视化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

零样本模拟到真实世界策略迁移。专门从上面生成的四个数字表亲训练的模拟策略,我们可以零样本迁移到相应的真实厨房场景。

基于这些结果,我们可以放心地回答问题 2、3、4:与在数字孪生上训练的策略相比,使用数字表亲训练的策略表现出相当的分布内性能和更稳健的分布外性能,并且可以实现零样本模拟到真实策略迁移。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一些失败的案例。

结论

作为一种全自动管道,ACDC 用于快速生成与单个现实世界 RGB 图像相对应的完全交互式数字表亲场景。我们可以发现,利用这些数字表亲训练的策略比在数字孪生上训练的策略更稳健,具有可媲美的域内性能和卓越的域外泛化能力,同时也支持零样本模拟到现实的策略转移。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
在这里插入图片描述

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/57347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年【浙江省安全员-C证】复审考试及浙江省安全员-C证证考试

题库来源:安全生产模拟考试一点通公众号小程序 浙江省安全员-C证复审考试是安全生产模拟考试一点通总题库中生成的一套浙江省安全员-C证证考试,安全生产模拟考试一点通上浙江省安全员-C证作业手机同步练习。2024年【浙江省安全员-C证】复审考试及浙江省…

vue3环境变量和模式

文章目录 一、vite文档介绍环境变量1.环境变量1.1创建文件 2.NODE_ENV 和 模式**2.1process.env.NODE_ENV(Node.js 环境变量)**2.2 **模式(mode)** 二、loadEnv获取环境变量(针对在env文件夹下)2.1创建环境…

FPGA图像处理之三行缓存

文章目录 一、前言二、FPGA实现三行缓存的架构三、Verilog代码实现四、仿真验证五、输入图像数据进行仿真验证 一、前言 在 FPGA 做图像处理时,行缓存是一个非常重要的一个步骤,因为图像输入还有输出都是一行一行进行的,即处理完一行后再处理…

Linux 安装 JDK 环境

最近有小伙伴不怎么会在 Linux 服务器安装 JDK 环境,小格子给大家总结分享一下,下次直接看这篇文章就可以了。下面以 CentOS 为例。 1. 下载 JDK 安装包 由于 JDK1.8.202 是最后一个免费版本,建议下载此版本。由于在 Oracle 官方网站下载需…

JS | JS之元素偏移量 offset 系列属性详解

目录 一、offset 概述 定位父级 offsetParent 偏移量 offsetWidth offsetHeight offsetLeft offsetTop 计算页面偏移 注意事项 二、offset 与 style 区别 偏移offset 样式style 三、案例 ★ 案例:获取鼠标在盒子内的坐标 ★ 案例:模态框…

软件测试学习笔记丨Pytest的使用

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/22158 1. 简介 pytest是一个成熟的全功能python测试框架测试用例的skip和xfail,自动失败重试等处理能够支持简单的单元测试和复杂的功能测试,还可以用来做selenium/ap…

2024互联网大厂营收排名:京东/阿里/华为前三,超多技术岗都在热招!

2024年已经过去一大半,各大互联网大厂的竞争如火如荼,营收都取得了不俗的成绩,京东、阿里、华为分别占领前三! 第四第五名则为华为和拼多多。 根据排行榜里的公司名单,小码特意为大家整理了一批各大厂的招聘岗位。 阿…

【论文#快速算法】Fast Intermode Decision in H.264/AVC Video Coding

目录 摘要1.前言2.帧间模式决策概览2.1 H.264/AVC中的帧间模式决策2.2 发现和动机 3.同质性和平稳性的确定3.1 同质性区域的确定3.2 稳定性区域的决定3.3 整体算法 4.实验结果4.1 IPPP序列的测试4.2 IBBP序列测试 5.结论 《Fast Intermode Decision in H.264/AVC Video Coding》…

基础数据结构——数组(动态数组,二维数组,缓存与局部性原理)

1.概述 在计算机科学中,数组是由一组元素(值或变量)组成的数据结构,每个元素有至少一个索引或键来标识 因为数组内的元素是连续存储的,所以数组中元素的地址,可以通过其索引计算出来,例如&…

生产力工具|vscode for mac的安装python库和使用虚拟环境(一)

一、在vscode中运行python代码(mac或windows) (一)在vscode中安装Python插件 若想在vscode中高效率的编辑Python代码,需要安装Python插件,点击下图中红框内的按钮: 然后在左上角的搜索框中输入…

Vue前端开发2.1 单文件组件

文章目录 一、单文件组件概念二、单文件组件构成1. 模板(Template)2. 样式(Style)3. 逻辑(Script) 三、单文件组件演示1. 创建Vue项目2. 启动Vue项目3. 用VS Code打开项目4. 清空样式文件代码5. 创建欢迎组…

【redis】热点key问题

【redis】热点key问题 【一】什么是热点key问题【二】什么样的key被称为热key【三】热点Key问题的危害【四】如何监控发现热点key【五】热点Key的解决方案【1】使用二级缓存【2】将热key分散到不同的服务器中【3】热key拆分【4】将核心/非核心业务做Redis的隔离 【六】业界已有…

Nature 正刊丨细菌免疫蛋白直接感知两种不同的噬菌体蛋白

01摘要 真核先天免疫系统使用模式识别受体通过检测病原体相关的分子模式来感知感染,然后触发免疫反应。细菌也进化出了类似的免疫蛋白,可以感知其病毒捕食者的某些成分,即噬菌体1,2,3,4,5,6。尽管不同的免疫蛋白可以识别不同的噬菌体编码的触…

log4j2.xml

log4j2.xml 1、log4j2.xml使用2、日志器的流程解析2.1、几个重要的类2.2、整体流程图 3、部分源码3.1、通过简单例子看源码3.2、log4j2.xml配置指导 如侵权&#xff0c;请联系&#xff0c;无心侵权&#xff5e; 如有错误&#xff0c;也请指正。 1、log4j2.xml使用 <?xml v…

Anaconda虚拟环境安装cuda和pytorch

首先电脑上要有Anaconda&#xff0c;使用conda创建一个虚拟环境,并激活 conda create yolov8 conda activate yolov8winR输入cmd&#xff0c;在命令窗口输入 NVIDIA-smi可以查看到自己电脑支持的cuda环境&#xff0c;如下图 再打开torch的官网 pytorch官网 查看目前支持的版…

目标检测——Cascade R-CNN算法解读

论文&#xff1a; Cascade R-CNN: Delving into High Quality Object Detection (2017.12.3) 链接&#xff1a;https://arxiv.org/abs/1712.00726 Cascade R-CNN: High Quality Object Detection and Instance Segmentation (2019.6.24) 链接&#xff1a;https://arxiv.org/abs…

Z 字形变换(6)

这道题之前一直不会做&#xff0c;明白他是什么意思&#xff0c;但是找不到方法或者方法过于繁琐 方法1&#xff1a; 这是我在力扣评论区看到的方法&#xff0c;太精彩了。 虽然我实现起来效率并不高&#xff0c;可能是我代码的问题&#xff0c;但是他的思路很巧妙。 字符串的…

Spring--1

spring是一个轻量级的&#xff0c;采用IOC与AOP编程思想的java后端开发框架&#xff0c;简化了企业级的应用开发。 Spring体系 数据访问层&#xff0c;Web层&#xff0c;配置中心&#xff0c;测试区 IOC 控制反转&#xff0c;将创建对象的控制权交由Spring框架&#xff0c;需…

音频分割:长语音音频 分割为 短语音音频 - python 实现

在做语音任务时&#xff0c;有是会用到的语音音频是长音频&#xff0c;这就需要我们将长音频分割为短音频。 该示例将声音的音量和静默时间结合作为语音的分割条件。 使用音量和静默时间结合的分割条件&#xff0c;能够比较好的进行自然断句&#xff0c;不会话语没有说完就切断…

Spring声明式事务管理:深入探索XML配置方式

前言 Spring的事务管理&#xff0c;无论是基于xml还是注解实现&#xff0c;本质上还是实现数据库的事务管理机制&#xff0c;因此要注意发送SQL的连接是否为同一个&#xff0c;这是实现声明式事务的关键。 以下案例和实现基于SSM整合框架完成&#xff0c;不知道如何整合SSM&…