dw新建站点/如何制作网页链接

dw新建站点,如何制作网页链接,装饰设计网站推荐,网站悬浮窗文章提出了一种新的框架,名为Any-point Trajectory Modeling (ATM) ,称为任意点轨迹建模。 用于从视频中预测任意点的未来轨迹,从而在最少动作标签数据的情况下,学习稳健的视觉运动策略。 图中展示了三个案例,打开柜子…

文章提出了一种新的框架,名为Any-point Trajectory Modeling (ATM) ,称为任意点轨迹建模。

用于从视频中预测任意点的未来轨迹,从而在最少动作标签数据的情况下,学习稳健的视觉运动策略。

图中展示了三个案例,打开柜子的中间抽屉、折叠布料并将其拉向右侧、拿起袋子并将其放在架子上。

根据给定的任务指令和图像帧中任意点集的初始位置,来预测这些点的未来轨迹。(紫红色点是最新方向点,蓝色点是过去的)

Robotics: Science and Systems (RSS) 2024

论文地址:Any-point Trajectory Modeling for Policy Learning

开源地址:https://github.com/Large-Trajectory-Model/ATM

1、研究背景

研究问题

  • 如何利用视频数据中的行为、物理和语义知识来指导机器人学习新的技能,特别是在缺乏动作标签的情况下。
  • 如何利用视频演示数据学习视觉运动策略,特别是当示教数据的收集成本高昂时。
  • ATM框架,用于从视频中预测任意点的未来轨迹,从而在最少动作标签数据的情况下,学习稳健的视觉运动策略。

研究难点

  • 视频数据中缺乏动作标签,难以直接用于策略学习;
  • 现有的视频预测模型在训练和推理过程中计算需求高,且容易产生不切实际的物理运动预测;
  • 直接从视频数据中学习控制策略需要解决物理运动和视觉外观之间的耦合问题。

相关工作

  • 使用自监督目标进行视频预训练以学习观察的特征表示;
  • 视频预测模型用于指导策略学习,但这些模型通常计算密集且容易产生幻觉;
  • 从人类视频中学习控制策略的研究,但这些工作通常只跟踪特定点,如机器人的末端执行器或人手。

2、模型框架

这篇论文提出了任意点轨迹建模(ATM),用于解决从视频中学习视觉运动策略的问题。

 首先进行轨迹点预测,然后实现轨迹引导策略学习。

2.1 轨迹点预测

文章提出了一种轨迹建模方法,用于从视频中预测任意点的未来轨迹。

该方法将视频帧中的每个状态表示为一组点,并学习一个轨迹模型来预测这些点在未来的位置。

ATM框架通过两个阶段进行视频数据预训练。

第一个阶段是自我监督轨迹注释,具体步骤如下:

  1. 从无动作视频中随机采样时间步和帧上的点,并使用预训练的视频跟踪器(CoTracker模型),生成这些点的轨迹。
  2. 采用启发式方法过滤掉静态点(如背景中的点),只保留在视频中有运动的点。
  3. 使用Transformer模型预测这些点的未来轨迹,输入为当前图像观测、语言指令和初始点位置,输出为未来点的2D相机坐标。

第二个阶段是多模态轨迹建模,具体步骤如下:

  1. 将点的当前位置、当前图像观测和任务的语言指令编码到一个共享的嵌入空间中。
  2. 通过大型Transformer模型对这些嵌入进行编码,解码器将这些轨迹标记转换为相应点的未来轨迹。
  3. 通过重建图像块作为辅助任务,进一步提升模型的预测能力。

CoTracker 开源地址:https://github.com/facebookresearch/co-tracker

2.2 轨迹引导策略学习

文章提出了一种基于预测轨迹的轨迹引导策略,该策略结合图像观测和预测轨迹来预测控制动作。

使用变换器架构来融合轨迹和图像信息,并通过均方误差损失进行训练。

均方误差损失函数:

其中,L 是损失函数,可以是均方误差(MSE)或交叉熵损失。

3、实验测试

数据集:实验使用了LIBERO基准中的130多个语言条件操控任务。

  • 每个任务包括10个动作标签演示轨迹和50个无动作视频演示轨迹。
  • 数据集包含RGB图像和机器人末端执行器的抓取和关节状态作为观测值。

环境:实验在LIBERO基准的不同子任务上进行,包括空间推理、对象推理、任务理解和长时任务目标。

对比方法:实验对比了以下基线方法:

  • BC:行为克隆,仅使用动作标签演示轨迹进行训练。
  • R3M-finetune:使用对比学习目标进行表示学习,并在领域内视频数据集上进行微调。
  • VPT:首先从动作标签轨迹训练逆动态模型,然后使用伪动作标签进行视频数据集的策略训练。
  • UniPi:训练文本条件视频扩散模型以生成时间细粒度的视频计划,并从初始帧和语言指令中学习目标条件策略。

结果与分析

总体性能:ATM在所有任务中显著优于各种强基线方法,平均成功率达到63%,而之前方法的平均最高成功率为37%。

跨模态学习:ATM能够有效地从人类视频和不同机器人形态的视频中学习。

与仅使用机器人视频相比,使用人类视频的ATM在多个任务上表现更好。

关键问题2:ATM在真实世界实验中的表现如何?与其他基线方法相比有何优势?

在真实世界实验中,ATM在五个任务的平均成功率为93%,显著高于行为克隆(BC)基线方法的65%和其他视频预训练基线方法的70%左右。

具体优势包括:

  1. ATM在长期任务和需要理解目标的任务上表现尤为出色,这得益于其预测未来轨迹的能力,为策略提供了清晰的指导。
  2. ATM能够有效地从人类视频和不同机器人形态的视频中学习,展示了跨模态视频学习的有效性。使用人类视频训练的ATM在真实世界任务中的成功率显著高于仅使用机器人视频的ATM。
  3. ATM的结构化表示自然地结合了物理归纳偏见,如物体的持久性,使得其在面对复杂和多样化的任务时表现更为稳健。

关键问题3:ATM框架在实验中进行了哪些消融分析?这些分析揭示了哪些关键设计选择的影响?

  1. 轨迹长度的影响:实验表明,轨迹长度为16步时性能最佳,平均成功率达到78%,而过短或过长的轨迹长度都会影响性能。较短的轨迹长度(如4步)显著降低了性能,而较长的轨迹长度(如32步)在某些任务上反而表现较差。
  2. 图像遮蔽的作用:在轨迹变换器训练中,随机遮蔽图像块作为辅助任务,结果显示图像遮蔽对策略性能有轻微提升作用,尤其是在LIBERO-Spatial任务中,遮蔽图像块的策略成功率为74.33%,而未遮蔽的为68.50%。
  3. 融合方式的影响:实验比较了早期融合和晚期融合对策略性能的影响,结果表明晚期融合对策略性能的提升最为显著。仅使用早期融合的策略在LIBERO-Goal任务中的成功率为56.67%,而结合晚期融合的完整ATM策略成功率为77.83%。

 项目展示:https://xingyu-lin.github.io/atm/

4、总结

优点与创新

  1. Any-point Trajectory Model (ATM): 提出了一种简单而新颖的框架,通过粒子轨迹的结构化表示将视频预训练与策略学习桥接起来。
  2. 显著超越基线: 在超过130个语言条件任务上进行了广泛的实验,ATM在视频预训练方面显著优于各种强大的基线方法,平均成功率达到63%,相比之前方法的37%提高了80%。
  3. 跨模态人类和机器人视频学习: 展示了从人类视频和不同机器人形态的视频中有效学习的能力。
  4. 多模态轨迹建模: 通过多模态掩码预测问题来形式化未来轨迹预测问题,结合了当前位置、图像观测和任务的语言指令。
  5. 轨迹引导策略学习: 使用预测轨迹作为子目标来指导控制策略的学习,从而能够仅使用少量的动作标注演示数据进行训练。
  6. 通用性: ATM适用于多种策略类,包括扩散策略,并在所有基准测试中保持一致的性能提升。
  7. 实时轨迹生成: ATM在相机坐标系中预测未来轨迹,最小化了对手动校准相机的假设。

不足与反思

  1. 依赖动作标注演示轨迹: 方法仍然依赖于一组动作标注的演示轨迹来映射到动作,这限制了学习到的策略的泛化能力。未来的工作可以考虑使用强化学习来学习轨迹跟随策略,从而不需要额外的演示数据。
  2. 视频数据集的小领域差距: 本文使用的视频数据集仅包含小领域差距。从野外视频数据集中学习提出了额外的挑战,如多模态分布、多样化的相机运动和次优运动。这些扩展留待未来工作。

分享完成~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/64590.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 搭建AIDL Client和Server端,双向通信

一、背景 使用AIDL,搭建Client和Server端,实现跨进程通讯,即两个应用之间可以相互通讯。这里列举AIDL实现的方式和需注意的细节,并附上源码。 二、实现方式 2.1 定义AIDL需要的接口,名字为xxx.aidl,Client和Server端 AIDL接口的包名和aidl文件必须一致&#xff0c…

【VUE】14、VUE项目如何自动识别服务端是否发布了新版本

今天介绍的是通过轮询的方式去检测服务端是否发布了新版本,从而提醒客户刷新页面,提升用户体验。 1、实现思路 使用轮询的方式获取项目中 index.html 文件。查询文件引入的 JS 文件是否有更新( Vue 每次打包后会生成新的引入文件&#xff0…

空天地遥感数据识别与计算--数据分析如何助力农林牧渔、城市发展、地质灾害监测等行业革新

在科技飞速发展的时代,遥感数据的精准分析已经成为推动各行业智能决策的关键工具。从无人机监测农田到卫星数据支持气候研究,空天地遥感数据正以前所未有的方式为科研和商业带来深刻变革。然而,对于许多专业人士而言,如何高效地处…

多智能体/多机器人网络中的图论法

一、引言 1、网络科学至今受到广泛关注的原因: (1)大量的学科(尤其生物及材料科学)需要对元素间相互作用在多层级系统中所扮演的角色有更深层次的理解; (2)科技的发展促进了综合网…

python数据分析:介绍pandas库的数据类型Series和DataFrame

安装pandas pip install pandas -i https://mirrors.aliyun.com/pypi/simple/ 使用pandas 直接导入即可 import pandas as pd pandas的数据结构 pandas提供了两种主要的数据结构:Series 和 DataFrame,类似于python提供list列表,dict字典,…

Python:枚举(包含例题字符计数,反倍数,洁净数,扫雷)

一.枚举是什么 枚举:通过逐个尝试所有可能的值或组合来解决问题的方法。 将问题空间划分为一系列离散的状态,并通过遍历这些状态来寻找解决方案。 二.枚举流程 1.确定解空间(一维,二维等) 2.确定空间边界&#xff…

设计模式之 abstract factory

适用场景 一个系统要独立于它的产品的创建、组合和表示时。一个系统要由多个产品系列中的一个来配置时。当你要强调一系列相关的产品对象的设计以便进行联合使用时。当你提供一个产品类库,而只想显示它们的接口而不是实现时 架构演示 首先client这个东西可以接触到…

linux-----数据库

Linux下数据库概述 数据库类型: 关系型数据库(RDBMS):如MySQL、PostgreSQL、Oracle等。这些数据库以表格的形式存储数据,表格之间通过关系(如主键 - 外键关系)相互关联。关系型数据库支持复杂的…

鸿蒙学习笔记:用户登录界面

文章目录 1. 提出任务2. 完成任务2.1 创建鸿蒙项目2.2 准备图片资源2.3 编写首页代码2.4 启动应用 3. 实战小结 1. 提出任务 本次任务聚焦于运用 ArkUI 打造用户登录界面。需呈现特定元素:一张图片增添视觉感,两个分别用于账号与密码的文本输入框&#…

RunCam WiFiLink连接手机图传测试

RunCam WiFiLink中文手册从这里下载 一、摄像头端 1.连接天线(易忘) 2.打开摄像头前面的盖子(易忘) 3.接上直流电源,红线为正,黑线为负 4.直流电源设置电压为14v,电流为3.15A, 通…

通过阿里云 Milvus 和 LangChain 快速构建 LLM 问答系统

背景介绍 阿里云向量检索 Milvus 版是一款云上全托管服务,确保了与开源Milvus的100%兼容性,并支持无缝迁移。在开源版本的基础上增强了可扩展性,能提供大规模 AI 向量数据的相似性检索服务。相比于自建,目前阿里云Milvus具备易用…

LeetCode刷题day29——动态规划(完全背包)

LeetCode刷题day29——动态规划(完全背包) 377. 组合总和 Ⅳ分析: 57. 爬楼梯(第八期模拟笔试)题目描述输入描述输出描述输入示例输出示例提示信息 分析: 322. 零钱兑换分析: 279. 完全平方数分…

多个Echart遍历生成 / 词图云

echart官网 安装 如果版本报错推荐安装以下版本 npm install echarts4.8.0 --savenpm uninstall echarts//这个是卸载命令以下安装成功后是局部引入:多个Echart遍历生成 vue3echart单个页面多个图表循环渲染展示:<template><div class"main"><div …

LabVIEW伸缩臂参数监控系统

LabVIEW开发伸缩臂越野叉车参数监控系统主要应用于工程机械中的越野叉车&#xff0c;以提高车辆的作业效率和故障诊断能力。系统通过PEAK CAN硬件接口和LabVIEW软件平台实现对叉车作业参数的实时监控和故障分析&#xff0c;具有良好的实用性和推广价值。 系统组成 系统主要由P…

【FFmpeg】解封装 ① ( 封装与解封装流程 | 解封装函数简介 | 查找码流标号和码流参数信息 | 使用 MediaInfo 分析视频文件 )

文章目录 一、解封装1、封装与解封装流程2、解封装 常用函数 二、解封装函数简介1、avformat_alloc_context 函数2、avformat_free_context 函数3、avformat_open_input 函数4、avformat_close_input 函数5、avformat_find_stream_info 函数6、av_read_frame 函数7、avformat_s…

YOLOv8目标检测——详细记录使用ONNX Runtime进行推理部署C++/Python实现

概述 在之前博客中有介绍YOLOv8从环境安装到训练的完整过程&#xff0c;本节主要介绍ONNX Runtime的原理以及使用其进行推理加速&#xff0c;使用Python、C两种编程语言来实现。 https://blog.csdn.net/MariLN/article/details/143924548?spm1001.2014.3001.5501 1. ONNX Ru…

python学opencv|读取图像(十六)修改HSV图像HSV值

【1】引言 前序学习进程中&#xff0c;我们已经掌握了对HSV通道和BGR通道的拆分和合并&#xff0c;并通过自由组合的形式&#xff0c;获得了和初始图像完全不一样的新图像&#xff0c;相关文章可以参考下述链接&#xff1a; python学opencv|读取图像&#xff08;十四&#xf…

CEF127 编译指南 MacOS 篇 - 编译 CEF(六)

1. 引言 经过前面的准备工作&#xff0c;我们已经完成了所有必要的环境配置。本文将详细介绍如何在 macOS 系统上编译 CEF127。通过正确的编译命令和参数配置&#xff0c;我们将完成 CEF 的构建工作&#xff0c;最终生成可用的二进制文件。 2. 编译前准备 2.1 确认环境变量 …

关于小程序内嵌h5打开新的小程序

关于小程序内嵌h5打开新的小程序 三种方式 https://juejin.cn/post/7055551463489011749 只依赖于h5本身的就是 https://huaweicloud.csdn.net/64f97ebb6b896f66024ca16c.html https://juejin.cn/post/7055551463489011749 navigateToMiniProgram 故小程序webview里的h5无法…

开发平台接口规范:北斗终端->北斗三号卫星->指挥机(北斗终端)->北斗短报文融合平台->客户平台(上行)| 时空信息产品

文章目录 引言I 技术架构和业务流程技术架构北斗终端信息流II 渠道接口验证签名白名单IP渠道配置表设计III 其他辅助功能TCP 发送消息到消息中心nginx转发网关服务异常捕获日志采集IV 知识扩展对请求参数进行校验引言 开发平台的应用场景:平台需要开发能力给下游平台需要接收上…