超越机械抓手:看多指机器人如何灵活运用触觉?

论文标题:

Learning Visuotactile Skills with Two Multifingered Hands

论文作者:

Toru Lin, Yu Zhang, Qiyang Li, Haozhi Qi, Brent Yi, Sergey Levine, and Jitendra Malik

1. 机器人新挑战:多指手指操作

在自动化和智能化日益普及的今天,机器人在工业生产、医疗辅助、家庭服务等多个领域扮演着越来越重要的角色。然而,大多数现有的机器人手臂都仅限于执行一些简单的、重复性高的任务,它们的操作能力远远不能满足复杂任务的需求。特别是在需要精细操作和高度协调性的场合,机器人的表现往往不尽人意。

为了提升机器人的灵巧性,科学家们开始尝试模仿人类的双手操作。人类的双手是自然界中最灵巧的工具之一,它们能够完成从精细的手术缝合到粗重的搬运工作等一系列复杂任务。要让机器人达到类似的灵巧度,关键在于赋予它们多指操作的能力。多指手不仅能够提供更多的自由度,还能够通过不同的手指组合来适应各种形状和大小的物体。

在这一领域,加州大学伯克利分校的研究团队取得了突破性进展。他们开发的系统能够让机器人通过视觉和触觉数据学习完成复杂任务的技能。这项技术的核心在于模拟人类的感知和运动模式,使机器人能够更加精细和灵活地操作物体。

在这里插入图片描述
▲图1 | 系统搭建及视觉触觉学习的四种任务©️【深蓝AI】编译

2. 机器人的“感官世界” :HATO系统低成本的远程操作

视觉和触觉是人类感知世界的两个重要途径。

**而在机器人的世界观中,「视觉」提供了物体的位置、形状和运动信息,「触觉」则提供物体的质地、重量和接触状态等信息。**而将这两种感知方式结合起来,可以极大地提高机器人对环境的理解和操作的精确性。

在这项研究中,科学家们为机器人配备了先进的视觉和触觉传感器。视觉传感器包括多个RGB-D相机,它们能够捕捉物体的彩色图像和深度信息。触觉传感器则安装在机器人的指尖上,能够检测到细微的压力变化。通过这些传感器,机器人能够获得丰富的环境信息,从而更加准确地判断如何抓握和操作物体。

在这里插入图片描述
▲图2 | 指尖触觉传感器布局©️【深蓝AI】编译

此外,研究者们还开发了一种新的数据处理和学习算法,使机器人能够从人类操作员的演示中学习知识:通过分析操作员的动作和相应的感知反馈,机器人能够逐渐学会如何根据物体的特性和任务的要求来调整自己的动作。这种方法不仅提高了学习效率,还使机器人能够更好地适应新的环境和任务。

为了收集用于训练机器人的数据,研究者们设计了一种名为HATO的低成本远程操作系统。该系统利用现成的虚拟现实(VR)硬件,包括VR头显和手柄,来模拟机器人的动作。 HATO系统是一种低成本的双手多指远程操作系统,它利用现成的虚拟现实(VR)硬件,特别是Meta Quest 2平台,来实现对机器人手臂和手部的直观控制。该系统通过VR控制器的姿态映射来控制机器人臂的末端执行器姿态,同时利用控制器的握把按钮和拇指杆来精细操控手部的关节位置。HATO的核心在于其软件套件,它不仅支持多模态数据的收集,包括视觉、触觉和本体感知信息,还负责将控制器的输入转换为机器人系统的精确控制命令。此外,HATO系统还包括一个数据收集管道,用于记录和处理所有传感器数据,以及支持策略学习与部署的算法。

使用HATO系统,操作员可以戴上VR头显,通过手柄来控制机器人的手臂和手。手柄的姿态和按钮状态被实时捕捉并转换为机器人的动作指令。这种设计不仅使数据收集过程更加直观和自然,还大大降低了系统的成本和复杂性。

HATO系统还支持多模态数据的收集,包括视觉、触觉和本体感知数据。这些数据被同步记录并用于训练机器人的决策模型。通过分析操作员的动作和相应的感知反馈,机器人能够学习如何在不同的任务中使用合适的抓握方式和操作策略。

3. 实验:快速平滑的策略部署,机器人的灵巧性显著提升

在人类的学习过程中,观察和模仿是获取新技能的重要途径。同样,在机器人的技能学习中,观察人类操作员的行为并从中学习也是一个有效的策略。加州大学伯克利分校的研究人员开发的系统正是基于这样的理念,通过分析人类操作员的动作和相应的感知反馈,机器人能够逐渐学会如何根据物体的特性和任务的要求来调整自己的动作。

在训练过程中,机器人首先通过多个传感器收集操作数据。这些数据包括视觉信息、触觉信号和本体感知数据,它们共同构成了机器人的“观察”。视觉信息帮助机器人识别物体的位置和形状,触觉信号提供了物体的质地和重量等信息,而本体感知数据则告诉机器人自己身体各部分的状态。接着,机器人使用一种称为“扩散策略”的算法来处理这些观察数据,并预测下一步的动作。这种算法的核心思想是将动作预测视为一个条件生成问题,即在给定当前观察的情况下,预测未来一系列动作的概率分布。通过这种方式,机器人可以生成一系列可能的动作,并选择最优的动作来执行。 此外,为了提高学习效率,研究人员还提出了一种异步推理算法。这种算法允许机器人在执行任务的同时,不断学习和调整自己的动作。

这意味着机器人可以在实际操作中不断试错,并从错误中学习,从而快速提高自己的技能。

在机器人的技能学习中,如何将学习到的策略有效地部署到实际任务中,是一个关键的技术挑战。传统的策略部署方法通常需要机器人在执行任务时停下来进行推理,这不仅降低了任务的执行效率,也使得机器人难以处理需要连续控制的复杂任务。为了解决这个问题,研究人员提出了一种新颖的异步推理算法。该算法的核心思想是将推理过程与任务执行过程分离,让它们并行运行。

具体来说,机器人在执行任务的同时,一个远程推理服务器会不断地处理最新的观察数据,并生成动作序列的预测。接着,预测结果会被发送回机器人,与之前的时间步长上的预测结果进行整合,计算出一个平滑的动作序列。这样,机器人就可以在不中断任务执行的情况下,实时地调整自己的动作,从而实现更加流畅和连续的任务执行。

这种异步推理算法的另一个优势是它可以提高策略的鲁棒性。在实际应用中,机器人可能会遇到一些训练数据中未曾出现的特殊情况。通过实时的推理和调整,机器人可以更好地适应这些新的情况,从而提高任务的成功率。

在这里插入图片描述
▲图3 | 平行手爪遥操作常见故障©️【深蓝AI】编译

在经过一系列的学习和训练后,机器人在执行复杂任务方面取得了显著的进步。研究人员设计了四个具有挑战性的任务来测试机器人的技能,包括递滑溜的物体、堆叠积木、倒酒和上菜。

在这里插入图片描述
▲图4 | 四个不同的任务©️【深蓝AI】编译

在递物体的任务中,机器人需要用一只手拿起一个滑溜的物体,然后递给另一只手。这个任务考验了机器人的抓握能力和双手协调能力。实验结果显示,机器人能够稳定地抓握物体,并准确地将其递给另一只手,成功率达到了100%。

在堆叠积木的任务中,机器人需要将两个大块的积木叠放在另一个积木上。这个任务不仅需要精确的力量控制,还需要良好的空间定位能力。实验结果表明,机器人能够准确地判断积木的位置, 并用适当的力量将其叠放在一起,从而成功完成任务。

在倒酒的任务中,机器人需要用一只手拿起酒瓶,另一只手拿起酒杯,然后将酒从瓶中倒入杯中。这个任务考验了机器人的精细操作能力和动态控制能力。 实验结果显示,机器人能够平稳地执行倒酒动作,成功地将酒倒入杯中,而没有溅出。

在上菜的任务中,机器人需要用一只手拿起平底锅,另一只手拿起铲子,然后将牛排从锅中铲起并放到盘子上。这个任务需要机器人精确地控制力量和动作, 以防止牛排滑落。实验结果表明,机器人能够成功地完成这个任务,将牛排完好无损地放到了盘子上。

在这里插入图片描述
▲图5 | 视觉和处决对于四种任务表现的影响©️【深蓝AI】编译

4. 更智能、更通用的机器人

HATO系统的成功为机器人的未来发展开辟了新的可能性。通过视觉和触觉数据的学习,机器人不仅能够提高自己在特定任务上的表现,还能够更好地理解和适应环境,从而在更广泛的场景中发挥作用。这种基于学习的方法可以大大提高机器人的适应性。传统的机器人系统通常只能在特定的、预先编程的环境中工作。而通过学习,机器人可以快速地适应新的任务和环境,甚至能够处理一些未知的或不确定的情况。

这种方法还可以提高机器人的通用性。在传统的机器人系统中,不同的任务通常需要不同的编程和调整。而通过学习,机器人可以掌握一系列相关的技能,并能够根据任务的具体要求灵活地选择和组合这些技能。此外,这种方法还为机器人的个性化和定制化提供了可能。不同的操作员可能有不同的操作风格和习惯,通过学习,机器人可以适应不同操作员的特点,从而提供更加个性化的服务。

当然,这项技术仍然处于发展的早期阶段,还有很多挑战需要克服。例如,如何提高学习算法的效率,如何处理更加复杂和动态的环境,以及如何确保机器人的安全性和可靠性等。我们期待机器人将变得更加智能、更加灵活、更加通用。

编译|Scarlett

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/9592.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

idea导入jar包、打jar包

一、导入jar包 1.在工程下面新建一个lib目录,将jar包放在lib目录下面 2.按步骤导入jar包 -接下来选择jar包所在的位置进行导入 -下图中标红框位置就是刚刚导入的jar包 二、直接用idea打jar包 -下图中Main Class就是选择程序中的Main函数 -右侧标红框位置表示…

VSCode Python 自动格式化代码(black)不生效

弄了很长时间,各种尝试,就想实现保存后自动格式化代码,用户设置,工作区设置,因为环境较多以为有啥冲突,就是没找到。后来看到一条评论说Python版本低,想到了版本问题。然后就看到以下描述 记录…

Spring如何控制Bean的加载顺序

前言 正常情况下,Spring 容器加载 Bean 的顺序是不确定的,那么我们如果需要按顺序加载 Bean 时应如何操作?本文将详细讲述我们如何才能控制 Bean 的加载顺序。 场景 我创建了 4 个 Class 文件,分别命名为 FirstInitialization Se…

python数据分析——数据的选择和运算

数据的选择和运算 前言一、数据选择NumPy的数据选择一维数组元素提取示例 多维数组行列选择、区域选择示例 花式索引与布尔值索引布尔索引示例一示例二 花式索引示例一示例二 Pandas数据选择Series数据获取DataFrame数据获取列索引取值示例一示例二 取行方式示例loc() 方法示例…

人脸图像生成(DCGAN)

一、理论基础 1.什么是深度卷积对抗网络(Deep Convolutional Generative Adversarial Network,) 深度卷积对抗网络(Deep Convolutional Generative Adversarial Network,DCGAN)是一种生成对抗网络&#xf…

网工内推 | 软件测试工程师,有软考中、高级认证优先

01 上海碧蔓智能科技有限公司 招聘岗位:软件测试工程师 职责描述: 1、负责软件产品的测试工作,对测试进度和测试质量负责; 2、参与业务需求、设计方案的讨论,负责编写测试方案、测试计划、测试用例,搭建测…

LMDeploy笔记

随谈模型部署 模型部署包含的内容很多,来聊聊。 访存bottleneck 首先,基于transformer的计算是访存密集型任务。 so? 过去,我们表达模型的性能,通常会用ops,macs这些指标,也计算量来衡量模型的推理时间&#xff…

JSP ssm 智能水表管理myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 JSP ssm 智能水表管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采…

Vue自定义封装音频播放组件(带拖拽进度条)

Vue自定义封装音频播放组件(带拖拽进度条) 描述 该款自定义组件可作为音频、视频播放的进度条,用于控制音频、视频的播放进度、暂停开始、拖拽进度条拓展性极高。 实现效果 具体效果可以根据自定义内容进行位置调整 项目需求 有播放暂停…

使用Python实现DataFrame中奇数列与偶数列的位置调换

目录 一、引言 二、背景知识 三、问题描述 四、解决方案 五、案例分析与代码实现 六、技术细节与注意事项 七、扩展与应用 八、封装为函数 九、错误处理与健壮性 十、性能优化 十一、总结与展望 一、引言 在数据处理和分析中,数据框(DataFra…

16地标准化企业申请!安徽省工业和信息化领域标准化示范企业申报条件

安徽省工业和信息化领域标准化示范企业申报条件有哪些?合肥市 、黄山市 、芜湖市、马鞍山、安庆市、淮南市、阜阳市、淮北市、铜陵市、亳州市、宣城市、蚌埠市、六安市 、滁州市 、池州市、宿州市企业申报安徽省工业和信息化领域标准化示范企业有不明白的可在下文了…

药物代谢动力学学习笔记

一、基本概念 二、经典房室模型 三、非线性药物代谢动力学 四、非房室模型 五、药代动力学与药效动力学 六、生物等效性评价 七、生物样品分析方法 基本概念 生物样品:生物机体的全血、血浆、血清、粪便、尿液或其他组织的样品 特异性,specificity&…

信息技术自主可控的意义,针对国产化替换,服务器虚拟化或比公有云更具优势

我们之前在文章《博通收购VMware后,经销商和用户如何应对?新出路:虚拟化国产替代,融入信创云生态》中提到: 从信创整体发展和政策标准来看,供应商必须满足两个条件:一是融入国产信息技术生态&am…

FDM3D打印系列——系列模型的身高比例问题

大家好,我是阿赵。   最近又打印了一个拳皇的角色手办,不过在这个过程中,发现了一个不同角色之前比例的问题,和大家分享一下。   这个就是这次打印的模型,估计大家都很熟悉: 没错,就是拳皇…

gif压缩大小但不改变画质怎么做?分享5个压缩GIF原理~

GIF(图形互换格式)是网络上广泛使用的一种图像格式,因其支持动画而备受欢迎。然而,随着动画越来越复杂和高分辨率,GIF 文件大小也随之增加,可能导致加载速度变慢和带宽消耗增加。在这篇文章中,我…

反着用scaling law验证数据:群聊场景指代消歧

本文作者:白牛 我们之前开源了 LLM 群聊助手茴香豆(以下简称豆哥),它的特点是: 设计了一套拒答 pipeline,实用于群聊场景。能够有效抵抗各种文本攻击、过滤无关话题,累计面对 openmmlab 数千用…

Python专题:六、循环语句(1)

补充知识 代码的注释 #描述性文字 阅读代码的人更好的理解代码 while循环语句 x<100条件控制语句&#xff0c;Totalx,Total自增加x&#xff0c;x1&#xff0c;x自增加1&#xff0c;x<100此条件满足时&#xff0c;执行while循环&#xff0c;当x101时&#xff0c;x101条…

# 从浅入深 学习 SpringCloud 微服务架构(十五)

从浅入深 学习 SpringCloud 微服务架构&#xff08;十五&#xff09; 一、SpringCloudStream 的概述 在实际的企业开发中&#xff0c;消息中间件是至关重要的组件之一。消息中间件主要解决应用解耦&#xff0c;异步消息&#xff0c;流量削锋等问题&#xff0c;实现高性能&…

【图像增强(空域)】基于直方图增强的图像增强及Matlab仿真

1. 摘要 图像的灰度直方图表示灰度图像中具有每种灰度像素的个数&#xff0c;反映了图像中每种灰度级出现的频率&#xff0c;是图像的基本统计特征之一。直方图均衡方法因为其有效性和简单性已成为图像对比度增强的最常用的方法。其基本思想是根据输入图像的灰度概率分布来确定…

【全开源】Java外卖霸王餐免费吃外卖小程序+APP+公众号+H5多端霸王餐源码

一、特色功能 霸王餐活动管理&#xff1a;允许商家发布和管理霸王餐活动&#xff0c;包括设置活动时间、具体优惠、活动规则等。用户参与与浏览&#xff1a;用户可以在小程序中浏览霸王餐活动列表&#xff0c;查看活动的详情信息&#xff0c;如商品或服务的免费赠送、活动规则…