卖护肤在哪个网站做宣传好/网站在线推广

卖护肤在哪个网站做宣传好,网站在线推广,网络完全公司排名,住房和城乡建设局网站机器人模仿学习中对比解码的一致性采样 摘要 本文中,我们在机器人应用的对比模仿学习中,利用一致性采样来挖掘演示质量中的样本间关系。通过在排序后的演示对比解码过程中,引入相邻样本间的一致性机制,我们旨在改进用于机器人学习…

机器人模仿学习中对比解码的一致性采样

摘要

本文中,我们在机器人应用的对比模仿学习中,利用一致性采样来挖掘演示质量中的样本间关系。通过在排序后的演示对比解码过程中,引入相邻样本间的一致性机制,我们旨在改进用于机器人学习的稳健在线人类行为克隆方法。我们的模型基于一致性策略,在普通行为克隆和一致性选择的行为克隆中,均优于基线行为克隆方法。我们成功地将一致性采样与对比学习相结合,用于行为克隆,证明了我们注释人类演示方法的可行性。为了增强处理奖励周期性变化的稳健性,我们添加了时间噪声,以确保在存在时间相关性的情况下仍能保持性能。实验表明,在 PushT 任务中,二元和连续评分方法的性能相似,二元对比模仿学习的最终成功率达到 92.4%。未来的研究方向包括将相似状态与好坏演示进行成对映射、将该方法扩展到更多任务,以及实现在线强化学习。

1. 引言

在动态环境中从人类演示中学习面临着巨大挑战,尤其是在机器人领域,采样误差可能导致次优甚至危险的动作。由于人类演示的不确定性带来的实际挑战,给动作展开中的实施和采样带来了困难。并非所有采样序列都是一致且同样最优的,随机采样可能导致不稳定甚至危险的结果。在此,我试图开发一种行为克隆方法,利用样本间关系来学习人类演示。通过在排序后的演示对比解码过程中,引入相邻样本间的一致性机制,我们旨在尝试改进用于机器人学习的稳健在线人类行为克隆方法。

2. 相关工作

这项工作主要受到自然语言处理领域中用于开放式文本生成的对比解码研究的启发 [Li 等人(2022 年),Li、Holtzman、Fried、Liang、Eisner、Hashimoto、Zettlemoyer 和 Lewis]。语言模型(LM)在生成随机多样且准确的输出方面存在挑战,贪婪决策和最大概率并不是一个理想的解码目标。在模仿学习中,类似的贪婪方法会产生短且重复的序列轨迹。对比解码(CD)提出了一个受合理性约束的对比目标,它返回专家和新手可能性之间的差异。我们借鉴这项工作来定义损失函数和目标框架,分别将 “好” 和 “坏” 的人类演示视为专家和新手模型,以此进行训练。

此外,我们使用一致性采样来区分人类演示的质量。Sekhari 等人提出了选择性采样,主动向有噪声的专家询问反馈。他们的选择性采样算法适用于一般函数类和多种动作,并提供了一个将有噪声的专家整合进来以提高稳健性的框架 [Sekhari 等人(2024 年),Sekhari、Sridharan、Sun 和 Wu]。这与差异最小化的概念或从专家演示中进行自训练的思想一致。行为克隆领域的一个挑战是,由于演示数据集有限,策略往往会失败,在这种情况下,行为克隆方法通常难以奏效。论文显示,f-MAX(一种用于逆强化学习状态边际匹配目标的 f 散度推广的 AIRL)对其优越性能贡献最大 [Ghasemipour 等人(2020 年),Ghasemipour、Zemel 和 Gu]。

[Ma 等人(2023 年),Ma、Hu、Wang 和 Sun][Bertsch 等人(2023 年),Bertsch、Xie、Neubig 和 Gormley] 模仿学习扩散策略通过将机器人的视觉 - 运动策略表示为条件去噪扩散过程,为生成机器人行为奠定了基础。我们利用这些基础研究成果和机器人操作基准测试,相对于给定基线有 46.9% 的改进。扩散策略学习动作分布得分函数的梯度,并根据该梯度场进行迭代优化,同时结合滚动时域控制、视觉条件和时间序列扩散变换器。这些学习技术启发了我们在模仿学习中实施对比解码,并定义了成功指标和数据集模块 [Chi 等人(2023 年),Chi、Feng、Du、Xu、Cousineau、Burchfiel 和 Song]。

我们主要基于 2024 年一致性策略论文的工作进行拓展,该论文直接基于扩散策略 [Prasad 等人(2024 年),Prasad、Lin、Wu、Zhou 和 Bohg],以解决在机器人应用中实现快速策略推理时高端 GPU 的限制问题。一致性策略通过在扩散策略学习的轨迹上强制实现自一致性,使用预训练的扩散策略。具体来说,我们还使用该论文中的演示模块来处理 PushT 数据集 [Wang 等人(2022 年),Wang、Wei、Schuurmans、Le、Chi、Narang、Chowdhery 和 Zhou]。

3. 方法

3.1 动机:人类演示质量缺乏注释

模仿学习中一个长期存在的挑战是,如何有效地利用人类演示数据的质量差异,尤其是当这些数据没有标注表明演示好坏的偏好标签时。这种注释的缺乏使对比解码的实施变得复杂,因为对比解码依赖于区分好坏演示,以实现有效的行为克隆。核心问题在于人类演示对比解码的采样和注释过程。传统的离线强化学习(RL)技术假设奖励结构与演示紧密相关,但在没有明确质量注释的情况下,这一假设难以维持。

在此,假设在单峰演示任务中,大多数人类演示是成功的,次优演示被视为异常值。我们开发了一种采样方法来评估演示数据的质量。在预训练的视觉语言模型无法提供自动标注的情况下,我们利用一致性采样,假设成功行为遵循相邻轨迹,从而区分好坏演示。

通过探索弱先验和基于一致性的采样技术,我们假设大多数人类演示是成功的。利用样本间的关系,我们可以减轻缺乏明确注释的影响,仍然实现有效的行为克隆。实施基于一致性的采样,需要绘制多个序列,基于弱先验,预计其中大多数是好的。此外,我们的采样方法在演示中引入噪声,以捕捉时间相关性,并评估该方法的稳健性。最后,本项目使用扩散策略技术,探索采样算法的有效性和局限性。

3.2 仿真实验数据集

为了实施采样和对比解码,我们使用一致性策略论文中提供的人类演示数据集。我们使用三个已有的基准测试,在六个任务上进行了实验:Robomimic、Push-T 和 Franka Kitchen,这些在视觉 - 运动和基于状态的策略学习中是标准的 [Chi 等人(2023 年),Chi、Feng、Du、Xu、Cousineau、Burchfiel 和 Song] 以及 ParaDiGMS。在这里,我们重点关注 PushT 任务。

最初,我们尝试使用(RH20T 网站)和 Lerobot 存储库环境中的数据集,但最终发现这些数据集对于一致性采样来说过于复杂。最后,我们选定了对比解码论文中的数据,因为一致性和扩散策略论文中的仿真设置,能够在有限的 GPU 环境中进行更快、低延迟的评估。

PushT 任务要求使用圆形末端执行器,将 T 形块推到固定目标位置。我们使用了来自 [Chi 等人(2023 年),Chi、Feng、Du、Xu、Cousineau、Bu] 的 200 个专家演示数据集,并报告了基于状态观察的策略结果。我们每 50 个训练周期评估一次策略,将成功率记录在 wandb 上,同时也记录滚动输出视频。

3.3 采样方法

为了增强在线机器人行为克隆,我们实施了一种对比解码方法,利用批次内相邻样本间的一致性。该方法根据样本与最优行为的接近程度,将其分类为 “好” 或 “坏”。

一致性采样:在每个批次中,通过向量距离衡量轨迹相似性,与相邻轨迹接近的样本被视为 “好” 样本。这种接近程度表明成功行为的概率较高。相反,与这些相邻轨迹距离较远的样本被标记为 “坏” 样本。这些样本根据其较低的概率分布和与 “好” 轨迹的向量距离进行加权,表明其为次优行为。为了进一步改进这种方法,我们区分了来自一对弱模型和强模型的样本。这种比较通过突出两个模型样本质量的差异,有助于减少偏差。

根据 PushT 任务的期望指标,为每个演示定义一个分数。我们考虑 T 符号的覆盖百分比以及与基线 T 方向的对齐程度,分数越高表示越接近最终期望位置:

计算分数的均值和标准差:计算所有演示分数的均值(\mu)和标准差(\sigma):

基于一致性选择演示:选择分数超过均值加上标准差一定倍数的演示:

从一致性演示中采样:

从  中采样来训练模型,专注于期望行为的最具代表性的示例。这是在样本间手动调整的。此外,我们采用了一种使用好演示的加权平均质心标记的技术。这种方法有助于创建演示强度的梯度,而不是进行二元分类。远离好样本质心的演示被赋予较低的权重,表明其性能次优。这创建了一个演示强度指标,提供了一种细致的分类,而不是简单的二元标签。

这种采样方法旨在在部署期间,采样具有期望属性的行为,最终无需依赖明确的偏好注释。通过关注演示质量并利用弱先验,该方法确保机器人即使在没有直接标签的情况下,也能学习到稳健有效的行为。

3.4 增强稳健性的噪声

为了提高学习算法的稳健性,确保其能够处理现实世界中的变化,我们在演示数据中引入噪声。在采样过程中,首先确定一个概率 ,按照这个概率向演示中引入噪声。这模拟了人类演示中实际存在的误差或变化。然后,确保噪声不是完全随机的,而是具有时间相关性。噪声会持续一段时间,随着时间形成局部相关的噪声模式。对于每个演示,按照定义的概率引入噪声。这迫使学习者理解并适应随时间的变化,这对于制定稳健的策略至关重要。通过方差模拟次优性,进一步确保我们的学习算法能够处理实际的、有噪声的数据。噪声的存在还有助于识别异常值,提高算法区分好坏演示的能力。

3.5 对比解码的实现

在对比模仿学习中,目标函数可以表示为:

其中, 表示状态, 表示动作, 是由参数为  的神经网络得到的状态 - 动作对  的特征表示。

在二元情况下,每个演示被标记为好或坏。这更容易处理,因为决策是分类性的。令  是一个二元指示函数,对于好演示输出 1,对于坏演示输出 0。这个损失函数直接使用二元标签,使模型更倾向于选择被标记为好的动作,远离被标记为坏的动作。对比损失函数最大化好坏演示之间的距离:

当分数是连续的时,它们提供了对演示质量的度量,经过归一化后,取值范围从最小值到最大值。在 PushT 任务中,我们继续将  定义为覆盖度和方向的函数,它返回一个表示演示质量的连续值。我们对分数进行归一化,确保其在 0 到 1 之间(可以解释为演示为好的概率或置信水平):

这种方法允许在演示之间进行更细致的区分,模型从分数较高的演示中学习得更强。然后,损失函数可以用这些归一化分数对对比项进行加权:

在这两种情况下,这些损失函数都可以集成到模仿学习模型的训练中。对于二元分数,模型学习到好坏之间的明显区别。对于连续分数,模型的更新根据演示被认为是好或坏的程度进行加权,允许根据演示质量进行更精细的调整。这些框架可以使用机器学习中的标准优化技术来应用,通过调整参数,在逐步的训练数据批次上最小化损失函数。

4. 实验结果

我们在对比学习中比较了连续评分和二元评分。结果表明,连续评分提供了更细致的反馈,提高了模型区分不同演示质量水平的能力。
最终成功率:92.46%
最终训练损失:0.849

4.1 一致性强度加权

对超参数  进行手动调整,以确定一致性阈值的一致性强度加权。假设大多数人类演示是成功的。 的值根据在异常值范围内考虑的标准差数量进行调整。在手动调整过程中,将  设置为小于等于 1.5 会导致包含次优演示。另一方面,将  设置得高于 2.5 会导致排除过多演示,减少了有用的训练数据量,自然会导致过拟合。选择  提供了一个平衡,过滤掉了大部分异常值,同时保留了一组稳健的高质量演示用于训练。与基线相比,这种  的选择使模型实现了更好的泛化性能。

4.2 超参数调整

集成 L2 正则化来对抗过拟合,从而使模型性能更具泛化性。经过广泛测试,发现 500 个训练周期在模型复杂度和真正的确定性生成之间提供了最佳平衡。

4.3 基线比较

我们的模型最终成功率达到 92.46%,最终训练损失为 0.849,这表明模型性能强劲,能够有效地从提供的演示中学习。通过测量成功率和奖励率等指标来评估性能。为了进行全面评估,我们将对比解码策略与两个基线进行了比较:普通行为克隆和仅使用正 “好” 一致性样本的行为克隆。

普通行为克隆:这个基线是在所有可用演示上训练模型,而不区分好坏样本。虽然它提供了对整体演示质量的基本理解,但没有利用区分不同演示质量的潜在好处。普通行为克隆方法的成功率为 88.32%,训练损失为 1.256。较低的成功率和较高的训练损失表明,该模型难以从混合质量的数据中有效泛化。

正 “好” 一致性样本的行为克隆:在这个基线中,模型仅在通过一致性采样方法确定为 “好” 的演示上进行训练。通过专注于高质量演示,这种方法旨在提高模型的学习效率和性能。好一致性样本的行为克隆成功率达到 85.74%,训练损失为 1.024。与普通行为克隆相比的这种改进,证明了利用高质量数据进行训练的好处。

对比解码策略:我们提出的对比解码策略优于两个基线,成功率达到 92.46%,训练损失为 0.849,为该任务提供了最优策略。

5. 结论

最终,本项目的目标是在对比模仿学习中,利用一致性采样挖掘演示质量中的样本间关系。我们的研究结果表明,我们的模型优于基线行为克隆方法。我们成功地将一致性采样与对比学习相结合用于行为克隆,证明了我们注释人类演示方法的可行性。为了增强稳健性,我们引入噪声来处理奖励的周期性变化。这种方法在存在时间相关性的情况下,有效地保持了性能。我们的实验表明,在 PushT 任务中,二元和连续评分方法的性能相似。

未来的研究方向包括将相似状态与好坏演示进行成对映射。此外,我们可以将该方法扩展到 PushT 任务之外的更多任务,并实现在线强化学习,以进一步提高模型性能和适应性。鉴于自然语言处理领域的进展,对比解码与样本间一致性策略技术相结合,是一种很有前景的技术,可用于在机器人轨迹序列生成中引入独特行为。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/68749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Baklib揭示内容中台与人工智能技术的创新协同效应

内容概要 在当今信息爆炸的时代,内容的高效生产与分发已成为各行业竞争的关键。内容中台与人工智能技术的结合,为企业提供了一种新颖的解决方案,使得内容创造的流程更加智能化和高效化。 内容中台作为信息流动的核心,能够集中管…

[论文阅读] (37)CCS21 DeepAID:基于深度学习的异常检测(解释)

祝大家新春快乐,蛇年吉祥! 《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正&#xff0…

JVM方法区

一、栈、堆、方法区的交互关系 二、方法区的理解: 尽管所有的方法区在逻辑上属于堆的一部分,但是一些简单的实现可能不会去进行垃圾收集或者进行压缩,方法区可以看作是一块独立于Java堆的内存空间。 方法区(Method Area)与Java堆一样,是各个…

火语言RPA--文本内容提取

🚩【组件功能】:通过前后截取、通配符参数组合或纯正则方式提取源字符串中指定的文本内容 配置预览 配置说明 源内容 支持T或# 默认FLOW输入项 进行处理、匹配的对象,若为空,以上一个组件的输出为源内容。 提取方式 前后截取…

JVM的GC详解

获取GC日志方式大抵有两种 第一种就是设定JVM参数在程序启动时查看,具体的命令参数为: -XX:PrintGCDetails # 打印GC日志 -XX:PrintGCTimeStamps # 打印每一次触发GC时发生的时间第二种则是在服务器上监控:使用jstat查看,如下所示,命令格式为jstat -gc…

芯片AI深度实战:给vim装上AI

系列文章: 芯片AI深度实战:私有模型deep seek r1,必会ollama-CSDN博客 芯片AI深度实战:自己的AI,必会LangChain-CSDN博客 芯片AI深度实战:给vim装上AI-CSDN博客 芯片AI深度实战:火的编程AI&…

供应链系统设计-供应链中台系统设计(十四)- 清结算中心设计篇(三)

关于清结算中心的设计,我们之前的两篇文章中,对于业务诉求的好的标准进行了初步的描述,如果没有看的同学可以参考一下两篇文章进行了解,这样更有利于理解本篇的内容。链接具体如下: 供应链系统设计-供应链中台系统设计…

搭建自己的专属AI——使用Ollama+AnythingLLM+Python实现DeepSeek本地部署

前言 最近DeepSeek模型非常火,其通过对大模型的蒸馏得到的小模型可以较轻松地在个人电脑上运行,这也使得我们有机会在本地构建一个专属于自己的AI,进而把AI“调教”为我们希望的样子。本篇文章中我将介绍如何使用OllamaAnythingLLMPython实现…

Golang 并发机制-1:Golang并发特性概述

并发是现代软件开发中的一个基本概念,它使程序能够同时执行多个任务,从而提高效率和响应能力。在本文中,我们将探讨并发性在现代软件开发中的重要性,并深入研究Go处理并发任务的独特方法。 并发的重要性 增强性能 并发在提高软…

【算法应用】基于鲸鱼优化算法求解OTSU多阈值图像分割问题

目录 1.鲸鱼优化算法WOA 原理2.OTSU多阈值图像分割模型3.结果展示4.参考文献5.代码获取 1.鲸鱼优化算法WOA 原理 SCI二区|鲸鱼优化算法(WOA)原理及实现 2.OTSU多阈值图像分割模型 Otsu 算法(最大类间方差法)设灰度图像有 L L …

项目升级Sass版本或升级Element Plus版本遇到的问题

项目升级Sass版本或升级Element Plus版本遇到的问题 如果项目有需求需要用到高版本的Element Plus组件,则需要升级相对应的sass版本,Element 文档中有提示,2.8.5及以后得版本,sass最低支持的版本为1.79.0,所升级sass、…

数据结构 树1

目录 前言 一,树的引论 二,二叉树 三,二叉树的详细理解 四,二叉搜索树 五,二分法与二叉搜索树的效率 六,二叉搜索树的实现 七,查找最大值和最小值 指针传递 vs 传引用 为什么指针按值传递不会修…

利用metaGPT多智能体框架实现智能体-1

1.metaGPT简介 MetaGPT 是一个基于大语言模型(如 GPT-4)的多智能体协作框架,旨在通过模拟人类团队的工作模式,让多个 AI 智能体分工合作,共同完成复杂的任务。它通过赋予不同智能体特定的角色(如产品经理、…

嵌入式系统|DMA和SPI

文章目录 DMA(直接内存访问)DMA底层原理1. 关键组件2. 工作机制3. DMA传输模式 SPI(串行外设接口)SPI的基本原理SPI连接示例 DMA与SPI的共同作用 DMA(直接内存访问) 类型:DMA是一种数据传输接口…

【MySQL】--- 复合查询 内外连接

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: MySQL 🏠 基本查询回顾 假设有以下表结构: 查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为…

2 MapReduce

2 MapReduce 1. MapReduce 介绍1.1 MapReduce 设计构思 2. MapReduce 编程规范3. Mapper以及Reducer抽象类介绍1.Mapper抽象类的基本介绍2.Reducer抽象类基本介绍 4. WordCount示例编写5. MapReduce程序运行模式6. MapReduce的运行机制详解6.1 MapTask 工作机制6.2 ReduceTask …

【memgpt】letta 课程6: 多agent编排

Lab 6: Multi-Agent Orchestration 多代理协作 letta 是作为一个服务存在的,app通过restful api 通信 多智能体之间如何协调与沟通? 相互发送消息共享内存块,让代理同步到不同的服务的内存块

cmd命令行无法进入D:盘怎么办

我找到了一个方法就是 增加一个/d cd /d d: 如下图,我不仅可以进入d盘符下,还可以访问盘符下的文件夹

【机器学习】自定义数据集 ,使用朴素贝叶斯对其进行分类

一、贝叶斯原理 贝叶斯算法是基于贝叶斯公式的,其公式为: 其中叫做先验概率,叫做条件概率,叫做观察概率,叫做后验概率,也是我们求解的结果,通过比较后验概率的大小,将后验概率最大的…

2025年人工智能技术:Prompt与Agent的发展趋势与机遇

文章目录 一、Prompt与Agent的定义与区别(一)定义(二)区别二、2025年Prompt与Agent的应用场景(一)Prompt的应用场景(二)Agent的应用场景三、2025年Prompt与Agent的适合群体(一)Prompt适合的群体(二)Agent适合的群体四、2025年Prompt与Agent的发展机遇(一)Prompt的…